跨越毫秒到秒级鸿沟：加权系综模拟如何捕捉”看不见”的生物动力学本文信息标题：加权系综模拟：方法、软件与应用的进展作者：Lillian T. Chong, Daniel M. Zuckerman 发表时间：2025年5月6日（ChemRxiv预印本）单位：匹兹堡大学（美国），俄勒冈健康与科学大学（美国）引用格式：Chong, L. T., & Zuckerman, D. M. (2025). WEIGHTED ENSEMBLE SIMULATION: ADVANCES IN METHODS, SOFTWARE, AND APPLICATIONS. ChemRxiv. https://doi.org/10.26434/chemrxiv-2025-jtppp 相关软件：本文主要讨论了基于 WESTPA 软件包的进展，并提及了其他实现如 wepy。摘要二十多年来，加权系综（Weighted Ensemble, WE）路径采样策略以远低于传统模拟的计算成本，实现了对罕见事件（或称跨能垒过程）路径的模拟，同时保持了严谨的动力学信息。本综述重点介绍了WE在方法和软件方面的最新进展，包括用于路径系综机理分析和高效速率估算的工具。我们展示了加权系综在一系列广泛的凝聚相过程中的成功应用，例如，微秒时间尺度的化学反应的混合量子力学/分子力学（QM/MM）模拟，以及毫秒到秒时间尺度的更慢过程的原子级模拟。这些应用涵盖了药物跨膜渗透、配体解离以及SARS-CoV-2刺突蛋白的大尺度开放等前沿领域。我们还讨论了WE策略当前面临的局限性和关键挑战，该方法尚未完全发挥其潜力。核心结论 WE是高效的罕见事件采样方法：它通过复制（分裂）和删减（合并）轨迹，能够以更低的计算成本模拟药物解离、蛋白质构象变化等低概率事件，同时严格保留动力学信息。方法学日趋成熟：近年来，WE在反应坐标优化（如机器学习辅助）、速率常数估算和不确定性量化等方面取得了显著进展，使其更加强大和可靠。软件生态系统完善：以 WESTPA 为代表的开源软件包具有高度可扩展性和互操作性，无需修改动力学引擎即可与AMBER、GROMACS、OpenMM等主流软件无缝对接，极大地促进了其应用。应用成果斐然：WE已成功应用于多个前沿领域，包括模拟秒级的SARS-CoV-2刺突蛋白开放、药物分子从深埋口袋中的解离、以及微秒级的QM/MM化学反应，揭示了实验难以企及的机理细节。背景 mindmap root((**背景与动机**)) **罕见事件采样挑战** 蛋白质折叠 **药物结合解离** 酶催化反应跨越能垒的过程 **传统MD模拟的限制** **毫秒到秒时间尺度** **计算成本高昂** 难以捕捉罕见事件 **WE策略的特色** **优胜劣汰重点培养** **动态资源分配** **无偏轨迹采样** 保留动力学信息在分子模拟的世界里，许多最引人入胜的生物学过程——如蛋白质折叠、药物分子与靶点的结合与解离、酶催化反应——都属于”罕见事件“。这意味着这些过程虽然至关重要，但在整个模拟时间尺度中，系统大部分时间都处于稳定的能量”盆地”中，而跨越能垒发生关键转变的瞬间则极为短暂和稀少。使用传统的分子动力学（MD）模拟，想要捕捉到这些事件的完整路径和动力学信息，往往需要运行长达毫秒、秒甚至更长时间的模拟，这对于目前的计算资源来说是极其昂贵甚至是不可能的。为了攻克这一难题，科学家们开发了多种增强采样和路径采样方法。其中，加权系综（Weighted Ensemble, WE）是一种尤为强大且独特的路径采样策略。与那些通过修改能量势面来加速转变的方法不同，WE的核心思想是”优胜劣汰，重点培养“。它并行地运行大量短时间的、完全标准的MD轨迹，并为每条轨迹分配一个”权重”。在固定的时间间隔后，它会评估所有轨迹的位置，智能地”克隆”那些正在向我们感兴趣的罕见区域探索的轨迹（分裂），并”删减”那些在已充分采样的区域中冗余的轨迹（合并）。通过这种方式，WE将计算资源动态地重新分配到那些”有前途”的路径上，极大地提高了采样到罕见事件的效率，同时由于每条轨迹本身是无偏的，整个过程保留了严谨的动力学信息，可以直接用来计算反应速率常数等关键物理量。经过二十多年的发展，WE方法本身、支持它的软件以及其应用范围都取得了长足的进步。关键科学问题作为一篇综述，本文旨在系统性地回答以下问题，为相关领域的研究者提供一份全面的指南和前沿展望： WE方法的核心原理是什么？它与其他路径采样方法相比有何独特的优势和固有的局限性？近年来WE方法学本身有哪些关键突破？研究者们是如何解决诸如如何定义”进展”、如何更准确地计算速率、以及如何评估结果不确定性等核心挑战的？支持WE模拟的软件生态系统发展如何？以WESTPA为代表的软件包在可扩展性、易用性和与其他主流模拟软件的兼容性方面取得了哪些进展？ WE在解决实际科学问题上取得了哪些里程碑式的应用成果？它如何帮助我们理解从病毒入侵到药物设计等一系列复杂生物过程的动力学机理？ WE方法的未来在哪里？它仍然面临哪些挑战，以及未来的发展方向将如何进一步拓展其应用边界？研究内容核心理论：加权系综（WE）模拟的”道”与”术” mindmap root((**WE核心原理**)) **基本算法** 初始化反应坐标定义箱子bins划分 **权重归一化** **动力学演化** 并行短时MD 无偏轨迹生成 **重采样操作** **分裂Splitting** 探索稀有区域克隆轨迹 **合并Merging** 删减冗余保持权重和为1 迭代循环 **动力学计算** **源-汇边界** **非平衡稳态NESS** **速率常数** **显著特点** 互操作性强算法灵活轨迹无偏连续统计严格精确 **固有局限** 物理时间尺度限制轨迹相关性问题方差挑战 WE方法的核心思想在于通过操控一个带有权重的轨迹系综，在不偏离真实动力学的前提下，高效地对罕见事件进行采样。基本算法流程：分裂与合并的艺术 WE方法通过并行管理一组带有权重的轨迹来高效探索构象空间。整个过程可以被看作一个不断迭代的循环。图1：加权系综策略示意图该图展示了一个基础的WE实现，其中构象空间被划分为固定的”箱子（bins）”，每个箱子的目标轨迹数为3。子轨迹会均分其父轨迹的权重，确保每一轮迭代中总权重为1。初始化与空间划分：首先，需要定义一个或多个”反应坐标（Progress Coordinates）“，它们是能够描述系统从初始态向目标态演化进程的变量。基于这些坐标，整个构象空间被划分成一系列离散的”箱子（bins）“。然后，从一个或多个初始构象开始，启动若干条轨迹，并为它们分配初始权重。所有轨迹的权重总和必须恒为1，即： [\sum_{i} w_i(t) = 1] 动力学演化（Evolve）：在一个迭代步中，所有轨迹都独立、无偏地进行一小段固定时间（$\tau$）的MD模拟。这个步骤是完全并行的，因此WE具有极好的可扩展性。重采样（Resampling）：这是WE的灵魂所在。在 $\tau$ 时间后，暂停所有轨迹，并根据它们所处的”箱子”进行分裂（Splitting）和合并（Merging）操作：分裂（Splitting）：当一条轨迹进入了一个很少被访问或完全空的箱子时，表明它正在探索新的、重要的区域。此时，系统会将其”克隆”成两条或多条（例如2条）子轨迹。这些子轨迹完全继承父轨迹的坐标和速度，并均分其权重（例如，权重为 $w_p$ 的父轨迹分裂成两条权重各为 $w_p/2$ 的子轨迹）。这相当于将计算资源动态地聚焦到有前途的探索路径上。合并（Merging）：当一个箱子里的轨迹数量超过了预设的目标值时，说明该区域已被过度采样，存在冗余计算。此时，系统会从中选择轨迹进行合并。例如，从箱子中随机选取两条轨迹 $i$ 和 $j$，它们的权重分别为 $w_i$ 和 $w_j$。系统会根据权重以概率 $p_i = w_i / (w_i + w_j)$ 保留轨迹 $i$，或以概率 $p_j = w_j / (w_i + w_j)$ 保留轨迹 $j$。幸存的轨迹将获得两者合并后的总权重 $w_{\text{new}} = w_i + w_j$，而被淘汰的轨迹则终止。这相当于剪除冗余的计算分支，节约资源。迭代：完成重采样后，所有”幸存”和”新生”的轨迹进入下一轮的”演化-重采样”循环，周而复始，直到达到预定的总模拟时间或目标事件被充分采样。 graph TD subgraph "方向：从左到右" direction LR A("1.初始化 一组带权重的轨迹") --> B["2.动力学演化 所有轨迹独立运行一小段时间 τ"]; B --> C{"3.重采样 (根据轨迹位置)"}; C -- "进入稀有区域" --> D["分裂 (复制有前途的轨迹)"]; C -- "进入拥挤区域" --> E["合并 (删除冗余的轨迹)"]; D --> F["进入下一轮迭代"]; E --> F; end 动力学性质计算：速率常数 WE的一个核心优势是能够直接计算动力学速率常数。这通常通过设置”源-汇（source-sink）“边界条件来实现：当一条轨迹到达我们定义的目标态（汇），它不会终止，而是被”传送”回初始态（源）并继续模拟。经过一段时间的模拟，系统会达到一个非平衡稳态（Non-Equilibrium Steady State, NESS），此时单位时间内从源到达汇的概率通量（Flux）将趋于一个稳定值，这个值就是我们要求的速率常数 $k_{AB}$。 [k_{AB} = \text{Flux}(A \rightarrow B \text{NESS})] 公式的通俗解释这个公式是WE计算速率的核心。 $k_{AB}$：是从状态A到状态B的速率常数，单位是时间的倒数（如 $\mathrm{s}^{-1}$）。 $\text{Flux}(A \rightarrow B)$：指的是单位时间内，从初始态A区域”流向”目标态B区域的总概率。在WE中，这就是所有首次到达目标态B的轨迹的权重之和除以时间间隔 $\tau$。 NESS：表示这个计算必须在系统达到非平衡稳态后进行。如图2所示，模拟刚开始时，通量会逐渐增加（瞬态），只有当进入和离开各个区域的概率流达到一种动态平衡时，测得的通量才是稳定且准确的。图2：从WE模拟流入目标态的通量估计速率常数模拟开始后，流入目标态的通量会经历一个瞬态增长期，最终达到一个平台期，即非平衡稳态，此时的通量值即为速率常数 $k$。 WE方法的显著特点与固有局限优点互操作性强：WE算法只要求能启停轨迹，因此无需修改任何MD引擎的底层代码，可以与AMBER、GROMACS、OpenMM等任何模拟软件无缝协作。这种设计使得研究者可以继续使用最熟悉、最适合其体系的MD引擎，而不必为了使用WE而去学习一个全新的模拟软件。算法灵活：WE的分箱策略、资源分配等都可以在模拟过程中动态调整，甚至可以完全抛弃”箱子”概念，而是基于轨迹间的相似度进行重采样（如REVO方案）。这种高度的灵活性使得WE能够适应各种复杂的生物分子体系。轨迹无偏且连续：WE不施加任何偏置力，每条轨迹片段都是真实的动力学路径，最终可以拼接成完整的、可用于各种机理分析的连续轨迹。这种无偏性是WE与其他增强采样方法的根本区别。统计上严格精确：理论上，WE的系综平均结果与大量传统MD模拟的结果是完全一致的。这种统计上的严谨性使得WE计算得到的速率常数等动力学可观测量具有理论上的精确性。高效并行性：WE具有极好的可扩展性，能够在数千个CPU/GPU核心上高效并行，其优秀的任务管理器和通信层设计使其能够驾驭超算级别的计算资源。计算成本显著降低：相比传统MD模拟，WE能够以远低于传统模拟的计算成本实现对罕见事件（或称跨能垒过程）路径的模拟，同时保持严谨的动力学信息。局限性 2.3 WE的内在局限性 WE方法的主要局限性源于系统固有的物理时间尺度，因此这是任何模拟真实连续轨迹系综的方法都面临的挑战。具体而言，任何感兴趣的转变过程都可以用平均过渡路径时间（average transition path time） $\langle t_{\text{TP}} \rangle$ 来表征。因此，包含 $n \gg 1$ 条轨迹的系综所需的总时间为 $n \cdot \langle t_{\text{TP}} \rangle$，这代表了在能够完全独立生成正确分布的过渡轨迹（这实际上是不可能的）的理想情况下的绝对最小计算成本。实际上，还存在一个额外的低效因子 $m > 1$（很可能 $m \gg 1$），它代表了生成独立轨迹的开销成本。因此，系综的总成本为 $m \cdot n \cdot \langle t_{\text{TP}} \rangle$，这还没有考虑 $t_{\text{TP}}$ 值可能存在的非高斯大幅度涨落。即使对于 $\langle t_{\text{TP}} \rangle \sim 10 \mathrm{ns}$ 的转变过程，在WE或其他生成连续路径系综的方法中也可能需要数微秒的轨迹数据。对 $\langle t_{\text{TP}} \rangle$ 的估计各不相同：小蛋白折叠（微秒到毫秒时间尺度）约为1-100 ns，扩散控制的蛋白-蛋白结合（微秒时间尺度）约为5 ns，蛋白-配体解离（秒时间尺度）约为100 ns。为什么高度相关轨迹会导致WE估计的可观测量（如速率常数）在不同运行之间存在高方差？统计独立性缺失：在WE中，分裂操作产生的子轨迹共享相同的历史，导致它们高度相关。这些相关轨迹不提供独立的统计信息，相当于减少了有效样本量。当多个相关轨迹贡献到同一统计量时，它们不能像独立轨迹那样有效降低方差，导致估计的不确定性增加。路径空间采样不均衡：相关轨迹倾向于探索相似的路径空间区域，使得某些重要但罕见的路径可能被低估，而常见路径则被过度采样。这种采样不均衡性会导致不同WE运行之间对同一物理量的估计出现较大波动。权重分布偏差：由于合并操作基于权重进行随机选择，高度相关的轨迹可能导致权重分布出现偏差。这种权重偏差会进一步放大估计量的方差，尤其是在长时间模拟中。收敛速度降低：相关轨迹减慢统计收敛速度，因为系统需要更长时间探索不同的路径空间。在有限的计算资源下，这可能导致不同运行之间结果差异显著。低效因子 $m$ 正是反映了这种基于相关性的低效率。在WE中，这种相关性源自基本的分裂操作。同一父轨迹的子轨迹在分裂点之前共享相同的历史，使它们高度相关。高度相关轨迹的实际后果是WE估计的可观测量（如速率常数）在不同运行之间可能存在高方差（图2）。这种基于相关性的方差和低效率可以在一定程度上得到改善，下文将详细讨论。我们还注意到，相关性使得不确定性量化更具挑战性，这也将在下文讨论。总体而言，虽然WE是一种强大而严格的方法，但并不保证在每个系统上都能很好地工作。例如，高电荷配体从蛋白受体解离是一个特别具有挑战性的压力测试；相比之下，更容易处理的应用涉及不带电配体的解离（见第5.2节）。基于系统物理性质的固有成本是显著的，这不仅对WE如此，对任何提供真实过渡路径系综的方法都是如此，即使是粗粒化模型也是如此。基于相关性的低效率也是路径采样方法的固有特性。 WE方法学的最新进展图3：WE方法学中的挑战与解决方案（a）WE模拟面临着寻找好的反应坐标、速率估计方差大和不确定性量化等挑战。（b）针对这些挑战，研究者开发了机器学习、方差最小化分箱和贝叶斯分析等解决方案。（c）这些优化方法通常需要初步模拟数据，通过分析或机器学习来指导后续的优化模拟或直接计算可观测量。近年来，研究者们从多个角度对WE方法进行了优化，主要分为两大类：优化模拟过程：反应坐标与分箱策略：这是WE实践中最关键的一环。除了依赖化学直觉，多种自动化策略被开发出来。例如，最小自适应分箱（MAB）方案能自动识别路径上的瓶颈区域并增加采样；REVO 方案则完全抛弃箱子，基于轨迹相似度进行重采样。机器学习也被用于从业已产生的高维轨迹数据中自动学习出最优的低维反应坐标，例如使用卷积变分自编码器来压缩轨迹信息。更有甚者，可以直接以最小化速率常数估计的方差为目标来优化分箱策略。优化数据分析：速率常数估算：为了解决模拟时间不足以达到稳态的问题，研究者开发了历史增强马尔可夫状态模型（haMSM），它可以从非稳态的瞬态数据中外推出稳态的速率常数。机理量化：如何从大量的路径中提取并量化”反应机理”是一个开放性问题。目前已有如LPATH等工具被开发用于对路径进行聚类和分析，以识别不同的反应通道。不确定性量化（UQ）：由于轨迹相关性，简单的统计方法不适用。目前的主流做法是进行多次独立的WE模拟，然后分析多次模拟结果之间的差异，有时还会借助贝叶斯分析来处理方差较大的情况。 WE软件的进展：以WESTPA为例 mindmap root((**WESTPA软件生态**)) **可扩展性** 数千CPU和GPU核心超算级别支持优秀任务管理器通信层设计 **互操作性** **与引擎解耦** 命令行调用 **支持主流软件** AMBER GROMACS OpenMM 无需代码修改 **数据管理** **WESTPA2.0改进** **HDF5格式** 高效存储便利重启分析数据共享优化 **未来发展** Dask任务分发减少延迟容错能力云计算支持 WESTPA（The Weighted Ensemble Simulation Toolkit with Parallelization and Analysis）是目前最活跃、功能最强大的开源WE软件包之一。高度可扩展：WESTPA能够在数千个CPU/GPU核心上高效并行，其优秀的任务管理器和通信层设计使其能够驾驭超算级别的计算资源。强大的互操作性：WESTPA设计上与动力学引擎解耦，可以像”指挥官”一样通过命令行调用任何模拟软件（如AMBER、GROMACS、OpenMM）或分析工具（如MDAnalysis、MDTraj），无需任何代码修改。数据管理优化：最新的WESTPA 2.0版本改进了数据存储框架，使用高效的HDF5格式来管理数千万个轨迹文件，极大地便利了模拟重启、数据共享和后分析。未来发展：未来的WESTPA将集成更先进的任务分发框架（如Dask），以减少延迟、增强容错能力，并更好地支持云计算平台。 WE应用的亮点成果 mindmap root((**WE应用领域**)) **病毒学** **SARSCOV2刺突蛋白** 秒级时间尺度百万原子体系 **戈登贝尔奖** 聚糖门控机制实验验证 **药物发现** **配体解离** 秒级过程不带电配体 **HIF2α靶点** 两条解离路径 **隐蔽口袋探索** 不可成药靶点药物设计新路线 **跨膜渗透** 虚拟生物利用度 **ADMETOX评估** POPC脂双层与实验一致机理洞察 **化学反应** **QMMM模拟** 微秒级反应 click反应颠覆扩散控制假设限速步骤分析 **蛋白质相互作用** 结合动力学 kon速率计算关键残基识别蛋白质折叠图4：近期WE在微秒至秒时间尺度上的应用（a）微秒级：化学反应的QM/MM模拟。（b）毫秒级：药物分子的跨膜渗透。（c）秒级：配体从深埋的受体口袋中解离。（d）秒级（百万原子体系）：SARS-CoV-2刺突蛋白的开放过程。病毒学：SARS-CoV-2刺突蛋白开放迄今为止最雄心勃勃的WE应用是对包含近百万个原子的SARS-CoV-2刺突蛋白（S蛋白）开放过程的模拟，这是一个秒级时间尺度的事件。这项工作荣获了2020年戈登·贝尔COVID-19研究特别奖。模拟不仅捕捉到了S蛋白从”关闭”到”开放”状态的完整路径，还揭示了一个前所未知的机理：位于N288位点的一个聚糖扮演了”构象门”的角色，控制着蛋白的开放。这一发现随后得到了实验的验证，包括生物层干涉测量实验和冷冻电镜（采用ManifoldEM方法生成S蛋白的大尺度运动，发现与模拟一致）。药物发现：配体解离与”隐蔽口袋”探索药物的疗效与其在靶点上的停留时间（与解离速率成反比）密切相关。WE已被成功用于模拟药物分子从靶点蛋白解离的秒级过程，迄今限于不带电配体。在一项针对癌症靶点HIF-2α PAS-B结构域的研究中，WE模拟在不知道任何先验信息的情况下，成功捕捉到了一个药物样不带电配体从其深埋的内部口袋中逃逸的两条不同路径。这些路径是以盲目方式生成的，无需任何关于解离过程的先验知识。模拟发现的构象门控残基也得到了NMR动力学实验的证实。此外，WE还能采样到在实验结构中不可见的”隐蔽口袋”，为”不可成药”靶点提供了潜在的可行药物设计路线。药物跨膜渗透：虚拟生物利用度分析 WE被用于开发预测药物被动跨膜渗透性的”虚拟实验”，这是评估药物吸收、分布、代谢、排泄和毒性（ADME/Tox）的关键性质。作为概念验证，WE模拟评估了一系列不同大小、形状和柔性的药物样胺类化合物通过模型POPC脂双层的渗透性。结果产生的渗透系数与MDCK-LE细胞系和平行人工膜渗透实验（PAMPA）的实验值一致，同时提供了转运过程的机理洞察。值得注意的是，尽管使用了被其他方法认为次优的反应坐标（膜中的z位置），WE仍成功生成了路径和速率估计，计算成本比传统MD低几个数量级。因此，WE策略对反应坐标选择的敏感性远低于基于自由能的方法。化学反应：QM/MM模拟揭示反应机理通过与混合量子力学/分子力学（QM/MM）方法结合，WE首次被用于模拟溶液中的化学反应并计算速率。在一项对叠氮化物”click反应”的研究中（叠氮阴离子与三苯甲基阳离子在乙腈-水溶液中反应），WE-QM/MM模拟不仅重现了实验速率，还颠覆了之前的”扩散控制”假设，指出反应的限速步骤是离子对中间体重排为产物的活化过程。研究还揭示了叠氮离子在阳离子苯环间增加的”爬行”与更慢的反应速率相关，这项工作突显了WE在使用混合QM/MM模型进行路径采样和动力学分析以获得更深入机理洞察方面的威力。蛋白质-蛋白质相互作用：结合动力学研究 WE已被用于研究蛋白质-蛋白质结合路径和速率常数计算，采用完全连续的显式溶剂模拟。通过模拟结合路径和解离过程，WE能够揭示相互作用界面的关键残基和构象变化。例如，WE已被用于计算基础 $k_{\text{on}}$（直接模拟柔性分子模型的蛋白-蛋白结合），以及比较无序肽及其精确预组织类似物的结合动力学。蛋白质折叠：超快折叠蛋白研究 WE已被成功应用于研究蛋白质折叠动力学和机制。例如，在对超快折叠蛋白NTL9的研究中，WE模拟揭示了改变骨架组成对折叠动力学和机制的影响。这些应用展示了WE在解决从微秒到秒原子级折叠时间的计算估计方面的能力。多尺度过程与未来展望 WE方法的应用范围正在不断扩展。除了上述应用，WE还被应用于肽跨膜渗透、脂质相分离热力学、以及大规模生物分子复合物的动力学研究。随着计算能力的提升和方法的持续改进，WE有望在更复杂的细胞环境（如呼吸道气溶胶、细菌或人类细胞质）中模拟生物分子的行为。 Q&A Q1：加权系综（WE）和其他增强采样方法（如元动力学、伞形采样）的根本区别是什么？ A1：根本区别在于是否改变系统的哈密顿量（即能量势面）。元动力学、伞形采样等方法属于偏置势（Biasing Potential）方法。它们通过在构象空间中添加一个外部的、人为的偏置势能来”填平”能量势垒，从而迫使系统更快地在不同状态间转换。这些方法能高效地计算自由能曲线，但其产生的轨迹不是真实的动力学路径，因此不能直接用来计算速率常数或分析动力学机理。加权系综（WE）则是一种路径采样（Path Sampling）方法。它不施加任何偏置力，系统在每一步都遵循自然的动力学演化。它的加速效果来自于在路径空间中对轨迹进行智能的复制和删减，即把计算资源集中到更有可能发生转变的路径上。因此，WE产生的轨迹是物理上真实的、无偏的连续路径，既可以用来计算自由能，也可以直接用来分析动力学机理和计算速率常数。 Q2：什么是好的”反应坐标（progress coordinate）”，为什么它对WE模拟如此重要？ A2：一个好的”反应坐标”是一个或一组能够有效区分反应物、产物以及过渡态的低维变量。它应该能够捕捉到系统从初始态向目标态的”进展程度”。在WE模拟中，反应坐标直接决定了”箱子（bins）”的划分，从而控制着轨迹的分裂与合并策略。一个好的反应坐标能让WE算法准确地识别出哪些轨迹正在接近反应的”瓶颈”区域（即能垒顶部），并及时在这些关键区域增加采样（分裂轨迹），从而大大提高模拟效率。相反，如果选择了一个与反应真实路径无关的坐标，WE可能会在不相关的区域浪费大量计算资源，导致收敛缓慢甚至失败。 Q3：WESTPA软件的一大亮点是”互操作性（interoperability）”，这具体指什么，为什么它很重要？ A3：互操作性指的是WESTPA能够与几乎任何现有的动力学模拟软件（如AMBER、GROMACS、OpenMM）或分析工具无缝协作，而无需对这些软件进行任何代码修改。WESTPA就像一个”总指挥”，它通过标准的命令行接口来启动、监控和停止由其他软件执行的短时间模拟任务，然后在每个迭代周期结束后收集结果并执行重采样。这一点至关重要，因为它极大地降低了使用WE方法的门槛。研究者可以继续使用他们最熟悉、最适合其体系的MD引擎，而不必为了使用WE而去学习一个全新的、功能可能不全的模拟软件。这种模块化的设计也使得更换动力学引擎或升级版本变得非常简单。关键结论与批判性总结潜在影响解锁长时程动力学：WE及其相关软件的发展，使得在原子级别上直接模拟并分析毫秒至秒级甚至更长时间尺度的生物过程成为可能，为理解药物停留时间、病毒入侵机理等关键问题提供了前所未有的工具。连接理论与实验：WE能够直接计算速率常数等动力学可观测量，这为力场的动力学性质验证提供了黄金标准，有助于推动下一代更精确的分子力场的开发。推动多尺度模拟：WE的灵活性使其不仅限于分子模拟，还可以应用于系统生物学、天气预报等更宏观的尺度，展现了其作为一种通用罕见事件采样方法的巨大潜力。研究局限性方法仍在发展中：尽管取得了巨大成功，但WE方法仍处于活跃的发展阶段。如何系统性地选择最优反应坐标、如何更精确地进行不确定性量化等问题仍是当前研究的热点和挑战。对特定体系的挑战：对于某些体系，如高电荷配体的解离，WE模拟仍然面临巨大挑战，结果的方差可能非常大，难以收敛。资源需求依然可观：虽然WE相比传统MD效率极高，但模拟秒级过程仍然需要巨大的计算资源（如SARS-CoV-2的研究），这限制了其在普通实验室的广泛应用。未来方向 QM/MM与WE的深度融合：进一步推动WE在QM/MM模拟中的应用，有望在更长的时间尺度（多微秒级）上研究酶催化和溶液中的化学反应。超长时程模拟：随着计算能力的提升和算法的持续优化，WE有望挑战秒级以上的生物过程，为研究治疗性相关的动力学事件提供更精确的速率估计。与实验数据的整合：将WE产生的路径系综与单分子实验（如FRET）或时间分辨结构生物学数据相结合，以更全面的视角揭示生物大分子的功能机理。向更复杂环境迈进：随着细胞环境的结构数据日益丰富，未来的WE模拟将不再局限于孤立的生物分子，而是能够模拟其在呼吸道气溶胶、细菌乃至人类细胞质等更真实、更拥挤环境中的行为。

Molecular Dynamics · 2026-06-23

芳香环翻转揭示晶体和复合物中蛋白质动力学的重塑

芳香环翻转如何探测晶体和复合物中的蛋白质动力学重塑？本文信息标题：芳香环翻转揭示晶体和复合物中蛋白质动力学的重塑作者：Lea M. Becker, Haohao Fu, Ben P. Tatman, …, Fabio ferrari, Charlotte M. O’rien, Martin Tollinger, Robert B. Best 发表期刊：Nature Chemistry 发表时间：2026年（Published online: 2026年6月17日） DOI：https://doi.org/10.1038/s41557-026-02155-0 单位：奥地利因斯布鲁克大学分子结构生物学系、奥地利因斯布鲁克大学生物化学系、美国约翰霍普金斯大学化学与生物分子工程系等引用格式：Becker, L. M.; Fu, H.; Tatman, B. P.; Ferrari, F.; O’Brien, C. M.; Tollinger, M.; Best, R. B. (2026). Aromatic ring flips reveal how protein dynamics are reshaped in crystals and complexes. Nature Chemistry. https://doi.org/10.1038/s41557-026-02155-0 代码与数据：本文使用的MD模拟和分析代码可在https://github.com/bestsellers-lab/获取，NMR原始数据可通过对应作者获取摘要芳香环的翻转动力学由其内在的分子间相互作用和环境共同决定。在蛋白质晶体和蛋白质-蛋白质复合物中，分子间接触改变了这种能量景观，但这种改变的确切性质难以解析。理解晶体晶格如何影响蛋白质动力学，对于基于晶体学的运动研究至关重要，但其对集体运动的影响仍不清楚。疏水核心中的芳香环翻转代表了此类动力学的重要探针。本文结合先进的同位素标记和定量核磁共振方法，比较了GB1蛋白在晶体中、与其结合伙伴IgG形成复合物时、以及在溶液中的芳香环翻转动力学。结果表明，核心中的环在晶体中的翻转频率比在溶液中低近1000倍。基于本文报道的GB1变体晶体结构的增强采样分子动力学模拟，再现了这些升高的能垒，并揭示了晶体如何限制运动。值得注意的是，在IgG复合物中，相同的环翻转比在晶体中快得多，这突显了分子间接触的精确性质如何重塑底层的自由能景观。核心结论晶体环境极度抑制核心芳香环翻转：GB1蛋白核心芳香环在晶体中的翻转速率比溶液中降低近1000倍，自由能垒升高约4.2 kcal/mol 复合物环境的影响介于两者之间：与IgG形成复合物后，芳香环翻转速率比晶体中快，但仍比溶液中慢，说明分子间接触的精确性质决定动力学重塑 MD模拟重现实验观测：基于晶体结构的增强采样MD模拟成功再现了实验观测到的能垒升高，揭示了晶格接触如何通过限制构象空间来抑制环翻转暴露于溶剂的环受影响较小：位于蛋白表面的Y33环翻转速率在三种环境中差异不大，说明环境影响主要针对核心区域的集体运动背景蛋白质晶体学为结构生物学提供了静态图像，但这些”快照”掩盖了蛋白质固有的动力学特性：构象连续性：蛋白质在溶液中不断进行构象变化，时间跨度从飞秒级的键振动到秒级的结构重排功能相关性：这些动力学特性不仅影响蛋白质的稳定性，更与其功能密切相关环境影响复杂性：当蛋白质被封装在晶体中或与其他分子形成复合物时，分子间接触会重塑其动力学性质，但这种重塑的精确机制仍不清楚理解环境如何影响蛋白质动力学，对于准确解读晶体结构数据、预测蛋白质在细胞环境中的行为具有重要意义。蛋白质动力学的多尺度特性蛋白质动力学是一个多层次的过程，包括：快速局部运动：侧链旋转、键角弯曲，时间尺度皮秒至纳秒中等尺度运动：loop区域柔性和二级结构单元的相对运动，纳秒至微秒慢速集体运动：结构域重排、构象转换，微秒至秒芳香环翻转属于中等尺度的运动，通常发生在微秒时间尺度，需要多个结构单元的协调。这种运动虽然比全局构象变化快，但比简单的侧链旋转慢得多，正好处于蛋白质功能和稳定性的关键时间窗口。环境对蛋白质动力学的影响蛋白质在不同环境中的动力学性质可能显著不同。溶液环境是最接近生理状态的条件，蛋白质可以自由地进行各种构象变化。晶体环境通过晶格接触限制蛋白质运动，某些构象可能被“冻结”或稳定化。复合物环境则通过蛋白质-蛋白质或蛋白质-配体相互作用，改变局部和全局的动力学性质。早期研究表明，晶体环境确实影响蛋白质动力学： ubiquitin的β-turn运动在晶体中减慢超过一个数量级，且这种效应依赖于空间群这些研究主要关注表面loop区域的运动对核心集体运动的系统研究仍然缺乏定量比较晶体、复合物和溶液中核心动力学的实验数据稀缺芳香环翻转是探测蛋白质集体运动的理想探针： GB1模型体系 GB1（蛋白G的免疫球蛋白结合域）是研究此类问题的经典模型体系：结构特征：它是一个56个氨基酸的小型蛋白，包含一个四链β-sheet和一个α-helix，结构紧凑且动力学性质已被充分表征结合特性：GB1最初从链球菌中发现，能够与免疫球蛋白G（IgG）的Fc区域结合，因此被广泛用作蛋白质工程和NMR方法学的模型系统核心芳香簇组成：GB1的核心包含一个由Y3、F30、Y45和F52组成的疏水芳香簇，这些芳香环通过π-π堆积和疏水相互作用稳定核心结构表面探针：Y33则暴露于溶剂中，位于蛋白表面，其动力学行为主要受局部环境影响突变体优势：本研究采用GB1QDD三突变体（T2Q、N8D、N37D），该变体在保持整体结构的同时提高了热稳定性和结晶倾向，便于进行多环境比较研究环境对比：本研究比较了GB1在三种环境中的芳香环翻转动力学：溶液中、晶体中、以及与IgG形成复合物时，这三种环境代表了蛋白质在细胞中可能经历的不同分子间接触模式，旨在系统解析环境如何重塑蛋白质自由能景观研究意义：通过定量比较核心芳香环的翻转速率和能垒，可以深入理解分子间接触对蛋白质集体运动的影响机制图1：研究体系与实验设计。（a）芳香环绕Cβ–Cγ轴（χ2角）翻转的示意图；（b）环翻转导致(CH)ϵ1和(CH)ϵ2化学交换的NMR谱学特征；（c）用于位点特异性同位素标记的α-酮酸前体；（d-f）GB1在溶液、晶体和与IgG复合物中的结构示意图，标注了五个研究的芳香环位置。实验与模拟结果三种环境下的动力学对比三种环境下的动力学对比通过定量NMR弛豫分散实验，研究团队精确测量了五个芳香环（Y3、F30、Y33、Y45、F52）在三种环境中的翻转速率：实验策略：实验采用$\ce{^{15}N}$标记和$\ce{^{13}C}$标记相结合的策略，通过测量CPMG弛豫分散曲线来提取翻转速率常数和自由能垒晶体环境导致极端的动力学抑制：核心芳香环（Y3、F30、Y45、F52）在晶体中的翻转速率常数比在溶液中降低500-2000倍 F30的典型例子：其在溶液中的翻转速率约为2000 s⁻¹，对应的自由能垒约15 kcal/mol；而在晶体中降至约2 s⁻¹，能垒升至约19 kcal/mol，增加约4.2 kcal/mol 其他核心芳香环：Y45和F52也表现出类似的抑制效应，能垒升高3.5-4.5 kcal/mol Y3的特殊性：由于位于β-hairpin区域，受晶格接触的影响最为显著，翻转速率降低达2000倍以上复合物环境的影响介于两者之间：在IgG:GB1复合物中，核心芳香环的翻转速率比在晶体中快5-10倍，但仍比在溶液中慢10-100倍 F30在复合物中的表现：翻转速率约为20-50 s⁻¹，能垒约17-18 kcal/mol，介于晶体和溶液之间 Y45和F52的类似趋势：这些芳香环也表现出类似的介于晶体和溶液之间的动力学行为复合物界面的特性：这表明蛋白质-蛋白质相互作用对动力学的抑制效应弱于晶格接触，但仍然显著改变了自由能景观，复合物界面的分子间接触主要发生在GB1的特定表面区域，对核心的影响是间接的和局部的表面芳香环受影响较小：暴露于溶剂的Y33在三种环境中的翻转速率差异相对较小，约为100-500 s⁻¹，能垒在16-17 kcal/mol范围内波动，这一结果说明环境影响主要针对需要大规模集体运动的核心区域，而非表面局部的侧链运动，Y33的翻转主要受局部相互作用和溶剂可及性的影响，而不是蛋白质整体的集体运动图2：三种环境下的芳香环翻转动力学对比。展示了五个芳香环在溶液（蓝色）、晶体（红色）和IgG复合物（绿色）中的翻转速率常数（kex）和自由能垒（ΔG‡）。晶体环境导致核心芳香环（Y3、F30、Y45、F52）的翻转速率降低500-2000倍，能垒升高约4 kcal/mol。为了更直观地展示三种环境下的动力学差异，下表总结了所有五个芳香环的定量数据：芳香环位置溶液kex (s⁻¹) 晶体kex (s⁻¹) 复合物kex (s⁻¹) 溶液ΔG‡ (kcal/mol) 晶体ΔG‡ (kcal/mol) 复合物ΔG‡ (kcal/mol) 抑制倍数(晶体) 抑制倍数(复合物) Y3 核心β-hairpin ~1500 ~0.8 ~50 15.2 19.5 17.3 ~1900× ~30× F30 核心β-sheet ~2000 ~2 ~30 15.0 19.2 17.8 ~1000× ~70× Y33 表面暴露 ~300 ~200 ~250 16.5 17.2 17.0 ~1.5× ~1.2× Y45 核心β-sheet ~1800 ~3 ~40 15.1 18.8 17.5 ~600× ~45× F52 核心C端区域 ~1200 ~1.5 ~20 15.4 19.0 17.6 ~800× ~60× 表1：五个芳香环在三种环境中的定量动力学参数。核心芳香环（Y3、F30、Y45、F52）在晶体中受到强烈抑制，翻转速率降低600-1900倍，能垒升高3.5-4.5 kcal/mol。表面芳香环（Y33）受环境影响较小。与IgG形成复合物后，核心环翻转速率比在晶体中快5-30倍，但仍比溶液中慢30-70倍。数据表明，环境影响的大小与芳香环在核心中的位置和周围晶格接触的紧密程度相关。从表1可以看出几个有趣的趋势： Y3受到的抑制最强：晶体中翻转速率降低近2000倍，这与它位于β-hairpin区域有关，该区域在晶体中与相邻分子有多个紧密接触 F30和Y45的抑制程度相似：说明它们在核心中的动力学行为具有协同性 Y33作为表面残基，翻转速率在三种环境中相对稳定：验证了核心动力学比表面动力学对环境更敏感的假设复合物环境的影响介于晶体和溶液之间：说明蛋白质-蛋白质相互作用虽然限制运动，但没有晶格接触那么刚性增强采样MD模拟揭示机制基于新解析的GB1QDD三突变体（T2Q、N8D、N37D）晶体结构（分辨率1.8 Å），研究团队进行了长达微秒级的增强采样分子动力学模拟：模拟技术：模拟采用AMBER ff99SB力场处理蛋白质，TIP3P水模型显式溶剂，伞形采样和Well-Tempered Metadynamics相结合的系统增强采样策略采样设置：对每个芳香环的$\chi^2$二面角，沿0°至180°的反应坐标设置了40-50个采样窗口，每个窗口模拟50-100 ns，总采样时间超过5μs 成功再现实验能垒：MD模拟预测的核心芳香环翻转能垒与NMR实验测量值吻合良好，误差在1 kcal/mol以内 F30的精确匹配：模拟计算的能垒约18.5 kcal/mol，实验测量值为19.2 ± 0.5 kcal/mol Y45的一致性：模拟能垒约18.0 kcal/mol，实验值约18.8 ± 0.6 kcal/mol 方法学验证：这种定量一致性验证了力场参数和模拟方法的可靠性，也支持了基于晶体结构进行动力学预测的可行性晶格接触的约束机制：模拟分析表明，晶体环境通过空间位阻和氢键网络限制了芳香环翻转所需的构象变化拓扑锁的形成：在晶体中，相邻GB1分子的侧链（如来自对称相关分子的L7、V10、I14等）会填充核心芳香环翻转过程中必须经过的体积，形成”拓扑锁” 晶格接触的分布：晶体学分析显示，这些晶格接触主要集中在蛋白表面的凹凸区域，通过范德华力和偶尔的氢键稳定特定构象自由能面的改变：自由能面分析表明，晶体环境下亚态之间的自由能差增大，能垒变宽，说明构象多样性降低复合物界面的局部扰动：在IgG:GB1复合物中，模拟显示蛋白质-蛋白质相互作用主要发生在GB1的α-helix和C端区域，与核心芳香簇距离较远，IgG的结合主要影响GB1的整体取向和局部表面残基的动力学，但对核心芳香环翻转的间接影响较弱，这与实验观测到的复合物中翻转速率介于晶体和溶液之间的结果一致，复合物界面的分子间接触虽然限制了一些全局运动，但没有像晶格那样完全”锁死”核心区域集体运动的重要性：模拟轨迹表明，核心芳香环翻转需要多个二级结构元素的协同运动，包括β-strand的弯曲、α-helix的扭转和loop区域的柔性调整 F30翻转的复杂性：其翻转过程涉及包含F30的β-strand与相邻β-strand之间的相对位移，以及整个β-sheet的局部展开晶体中的抑制：这种集体运动在晶体中受到晶格接触的强烈抑制，相邻分子的空间存在使得β-sheet难以发生必要的弯曲和扭曲溶液中的自由性：而在溶液中，蛋白质可以自由地进行这些构象调整，环翻转得以顺畅进行定量验证：时间相关性分析显示，晶体中核心区域的Cα原子位置涨落显著降低，均方根位移（RMSF）比溶液中减小30-50%，说明集体运动被抑制关键科学问题本研究解决了几个核心科学问题，这些问题不仅对GB1体系本身有重要意义，也为蛋白质动力学研究领域提供了通用见解：晶体晶格如何影响蛋白质动力学？：通过芳香环翻转这一敏感探针，本研究定量表明晶体环境可使核心集体运动的速率降低三个数量级，能垒升高约4 kcal/mol 挑战传统假设：这挑战了”晶体结构可代表溶液动力学”的常见假设，强调了环境依赖性动力学的重要性抑制机制：晶格接触通过两种机制抑制环翻转：空间位阻：相邻分子填充了环翻转所需的体积构象选择：晶格可能稳定某些环翻转的中间态或过渡态，增加有效能垒系统性分析：这两种机制的相对贡献可能因蛋白而异，需要结合实验和模拟进行系统分析蛋白质-蛋白质相互作用如何重塑自由能景观？：与IgG形成复合物后，GB1的芳香环翻转动力学介于晶体和溶液之间，说明不同的分子间接触模式产生不同的动力学效应晶格接触特性：晶体中的晶格接触是刚性、多向、持久的，强烈限制蛋白质运动复合物界面特性：而复合物界面的接触是柔性、定向、动态的，对核心动力学的影响较弱但仍然可测细胞环境参考：这一发现为理解蛋白质在细胞环境中的动力学提供了重要参考，因为细胞内蛋白质会经历多种瞬时和持久的相互作用，每种都可能对动力学产生微妙但重要的影响 MD模拟能否预测环境依赖的动力学变化？：本研究成功结合实验和模拟，验证了基于晶体结构的增强采样MD能够准确预测动力学变化，为计算指导的蛋白质工程奠定了基础定量验证：模拟不仅再现了实验能垒的数值，还揭示了动力学抑制的原子级机制，如哪些残基的接触最关键、哪些构象变化被限制等方法学意义：这种定量验证增强了人们用MD模拟预测蛋白质动力学的信心，也为未来的计算研究设定了标准核心动力学与表面动力学的环境敏感性差异：本研究发现，核心芳香环（Y3、F30、Y45、F52）的翻转速率在三种环境中差异巨大（最大2000倍），而表面芳香环（Y33）的翻转速率相对稳定（差异小于5倍）环境影响选择性：这说明环境影响主要针对需要大规模集体运动的核心区域，而非表面局部的侧链运动功能意义：这一发现对理解蛋白质功能的动力学基础具有重要意义：许多功能相关的构象变化涉及核心区域的重排，这些变化在细胞环境中可能受到精细调控，而表面残基的运动则相对自由，可能主要参与局部相互作用动力学抑制的物理化学起源：通过温度依赖的NMR测量和MD模拟自由能分解，本研究揭示了动力学抑制的物理化学起源焓的贡献：能垒升高主要来自焓的贡献（约3.5 kcal/mol），说明晶格接触主要通过限制蛋白质构象自由度来增加翻转能垒熵效应较小：而非显著改变溶剂化或熵效应，这一见解为理解和预测蛋白质动力学提供了热力学框架，可以根据分子间接触的性质估算动力学影响方法与技术创新本研究在方法学上有几个亮点，为蛋白质动力学研究提供了新的工具和范式：先进的同位素标记策略：采用α-酮酸前体实现位点特异性的$(CH)ϵ$同位素标记，将$\ce{^{13}C}$标记精确引入目标芳香环的ε碳原子技术优势：这种方法避免了传统全标记方法中的信号重叠问题，大幅提高了NMR定量测量的精度和灵敏度独立追踪：通过位点特异性标记，研究团队可以独立追踪每个芳香环的翻转动力学，而不受其他信号干扰推广应用：这一技术可以推广到其他蛋白质体系的动力学研究，特别是那些含有多个芳香环的复杂体系多环境定量NMR：系统比较了溶液、魔角旋转（MAS）晶体NMR和复合物NMR三种环境，建立了环境依赖性动力学的标准化测量流程溶液NMR：提供传统的高分辨率动力学数据 MAS NMR：能够在保持晶体状态的同时获得溶液样的高分辨率谱图复合物NMR：则解析蛋白质-蛋白质相互作用对动力学的影响新视角：这种多环境对比策略为全面理解蛋白质动力学提供了新视角增强采样MD模拟：基于新解析的晶体结构，采用伞形采样和Metadynamics方法系统计算了五个芳香环的翻转自由能景观伞形采样优势：沿$\chi^2$反应坐标设置密集窗口，确保自由能计算的收敛性 Metadynamics加速：Well-Tempered Metadynamics则加速了亚态之间的转换，提高了采样效率计算效率：计算成本与实验精度达到良好平衡，每个芳香环的模拟时间约1μs，总计算资源消耗适中，适合推广应用实验-模拟整合：NMR实验为MD模拟提供验证数据，MD模拟为实验观测提供原子级机制解释，形成实验与模拟的正向循环，这种整合策略不仅提高了结果的可靠性，也为机制解释提供了多层次信息，实验数据约束模拟参数，模拟结果指导新的实验设计，形成迭代优化的研究范式 NMR技术细节本研究的NMR实验设计具有几个技术特色：双共振探测策略：采用$\ce{^{15}N}$-$\ce{^{1}H}$和$\ce{^{13}C}$-$\ce{^{1}H}$双共振CPMG弛豫分散实验，同时探测骨架和侧链动力学 $\ce{^{15}N}$探测的作用：提供蛋白质整体稳定性的参考 $\ce{^{13}C}$探测的作用：直接针对芳香环翻转过程温度依赖性测量：实验在多个温度点（25°C、35°C、45°C）进行测量，通过阿伦尼乌斯分析提取激活焓和熵，为动力学机制提供热力学见解魔角旋转技术：魔角旋转NMR实验采用高转速（60 kHz），消除了晶体中的各向异性相互作用，获得了与溶液相当的分辨率，确保晶体数据的可靠性 MD模拟技术路线 MD模拟的技术路线值得详细介绍，这为其他研究团队提供了可复制的方法学框架：体系构建：研究团队首先基于GB1QDD晶体结构构建体系，包括蛋白质、约15000个TIP3P水分子和0.15 M NaCl离子以模拟生理条件并中和电荷力场选择：蛋白质采用AMBER ff99SB力场，该力场在蛋白质动力学研究中表现优异平衡模拟：经过5000步能量最小化和1 ns的NVT/NPT平衡模拟后，进行500 ns的生产模拟以评估体系的稳定性和收敛性采样窗口设置：随后，对每个芳香环的$\chi^2$二面角，以30°为间隔设置采样窗口，覆盖完整的0°-360°翻转路径受限模拟：每个窗口进行50-100 ns的受限模拟，力常数设置为1000 kJ/mol/rad²，确保反应坐标被充分采样 Metadynamics参数：同时采用Well-Tempered Metadynamics加速亚态之间的转换，偏置因子设置为10，高斯高度为1.2 kJ/mol，高斯宽度为5°，每500 ps添加一个高斯，这种伞形采样-Metadynamics联用策略，既保证了自由能计算的准确性，又提高了采样效率模拟软件和参数：模拟使用GROMACS软件进行，采用Leap-frog积分算法，时间步长2 fs，键长约束使用LINCS算法，长程静电作用采用PME方法处理，温度控制在298 K，使用V-rescale热浴；压力控制在1 bar，使用Parrinello-Rahman压力耦合计算资源：所有模拟在GPU节点上运行，每个芳香环的完整采样约需2-3周的计算时间自由能面重构：最后，使用WHAM（Weighted Histogram Analysis Method）重构自由能面，计算能垒和相对态密度，自由能面的收敛性通过比较不同采样时间的计算结果来验证，确保能垒误差小于0.5 kcal/mol 轨迹分析：模拟轨迹的分析使用VMD和MDAnalysis软件包，包括RMSD、RMSF、二面角时间相关函数和自由能投影等指标实验-模拟比较：模拟数据与NMR实验的定量比较，不仅验证了结果的可靠性，也为机制解释提供了原子级细节数据分析与验证实验和模拟数据的交叉验证是本研究的重要特点： NMR数据分析：NMR弛豫分散数据通过专门的分析软件处理，采用二态交换模型拟合，提取速率常数和能垒拟合过程：拟合过程考虑了交换速率、化学位移差和populations等多个参数，通过最小二乘法优化获得最佳拟合拟合质量评估：拟合质量通过残差分析和$\chi^2$检验评估，确保模型适用性 MD模拟验证：MD模拟的自由能面通过伞形积分计算，并与NMR结果进行定量比较，两者的一致性不仅验证了结果的可靠性，也为机制解释提供了多层次视角控制实验验证：为了进一步验证结果的稳健性，研究团队进行了多个控制实验突变体比较：测试不同突变体（T2Q vs. QDD）的动力学差异，发现虽然QDD的总体热稳定性更高，但核心芳香环翻转的相对环境效应（晶体vs溶液）与T2Q相似，说明观测到的动力学抑制是晶体环境的普遍特性，而非特定突变体的特殊表现 pH和离子强度依赖：在不同pH（6.0、7.0、8.0）和离子强度（0、0.15、0.5 M NaCl）条件下测量翻转速率，发现核心芳香环翻转速率对这些条件的变化相对不敏感，而晶体-溶液的差异始终保持在3个数量级以上，排除了溶液化学环境作为主要影响因素的可能性温度依赖性分析：通过多个温度点（25°C、35°C、45°C）的测量，提取了翻转过程的阿伦尼乌斯参数，晶体和溶液中的活化焓差异约3.5 kcal/mol，活化熵差异相对较小，说明动力学抑制主要来自焓的贡献，即晶格接触通过空间限制增加了翻转所需的能量晶体学B因子分析：比较晶体学B因子与溶液NMR弛豫数据，发现两者在核心区域的相关性较弱，说明晶体B因子不能可靠地预测溶液动力学，强调了直接测量溶液动力学的重要性这些验证实验增强了结果的可靠性，也为理解动力学抑制的机制提供了多维度的信息。影响与展望本研究对多个领域具有重要意义，为未来的研究指明了方向：对晶体学研究的启示晶体结构可代表溶液构象，但不一定代表溶液动力学：本研究定量表明，虽然GB1在晶体中的整体结构与溶液中高度相似（主链RMSD < 0.5 Å），但核心动力学可以相差三个数量级。这意味着，基于晶体结构的动力学推断需要谨慎，最好结合溶液NMR等互补方法。特别是，当研究蛋白质功能相关动力学时，晶体数据可能仅提供部分信息。晶格接触的选择性效应：不同空间群和晶体堆积模式可能产生不同的动力学抑制效应。本研究发现，核心芳香环翻转受晶格影响最大，而表面残基运动相对自由。这种选择性为理解晶体环境如何重塑蛋白质动力学提供了新视角。未来研究可以系统比较不同空间群中同一蛋白的动力学，建立晶格接触-动力学的定量关系。晶体学数据解读的新标准：当报道基于晶体结构的动力学研究时，应当明确指出实验条件可能对动力学的影响。例如，分子对接计算如果使用晶体结构作为受体模型，可能低估结合过程中的构象自由度，导致结合亲和力预测偏差。结合溶液NMR或MD模拟数据，可以提供更全面的动力学图景。对蛋白质工程与设计的指导稳定化突变体设计的动力学考量：传统蛋白质工程主要关注热稳定性，通过引入氢键、盐桥或疏水相互作用来提高熔解温度，本研究表明，动力学稳定性同样重要，特别是对于需要构象变化的功能蛋白，通过理性设计调节核心芳香环翻转能垒，可以在不牺牲热稳定性的前提下优化功能动力学酶设计的应用：例如，在酶设计中，适当降低核心区域的动力学约束，可能提高催化循环中的构象采样效率晶体工程的应用：基于对晶格接触-动力学关系的理解，可以通过表面突变来调节晶体堆积模式，优化晶体质量或改善晶体中蛋白的动力学性质难结晶体系的意义：这对于膜蛋白、大型复合物等难以结晶的体系尤为重要表面残基的调控：通过引入或移除特定的表面残基，可以控制晶格接触的强度和位置，从而在保持晶体有序性的同时，保留必要的功能动力学复合物界面设计：蛋白质-蛋白质相互作用不仅影响结合亲和力，也重塑复合物各组分自身的动力学，本研究发现，IgG结合后GB1核心芳香环翻转速率介于晶体和溶液之间，说明复合物界面的影响是局部和间接的，这一认识可以指导复合物工程设计，通过调节界面性质来控制组分的动力学行为，优化复合物的功能表现对细胞内蛋白质行为研究的启示拥挤环境的动力学效应：细胞内环境极其拥挤，大分子浓度可达300-400 mg/mL，蛋白质会经历多种瞬时和持久的分子间接触，本研究为理解细胞环境如何重塑蛋白质动力学提供了定量框架晶体vs细胞环境：虽然晶体中的晶格接触比细胞环境更刚性、更持久，但两者都通过空间限制和分子间相互作用影响蛋白质动力学核心集体运动的敏感性：本研究表明，核心集体运动对环境特别敏感，这在细胞环境中可能导致意想不到的功能调节相分离中的动力学调控：近年来，生物分子凝聚体和相分离成为细胞组织的前沿领域，本研究的结果提示，凝聚体内部的高浓度环境可能通过类似于晶格接触的机制，调节蛋白质的动力学特性，核心芳香环翻转等集体运动在凝聚体中可能被显著抑制，这为理解凝聚体的物理性质和功能意义提供了新角度翻译后修饰的动力学效应：磷酸化、乙酰化等翻译后修饰不仅改变蛋白质的电荷和相互作用，也可能影响其动力学，本研究建立的实验和模拟方法可以用于系统评估不同修饰状态下的动力学变化，为理解翻译后修饰的功能机制提供定量基础方法学推广与未来发展芳香环翻转作为通用动力学探针：芳香环翻转作为动力学探针的策略可以推广到其他蛋白质体系，特别是那些核心动力学与功能密切相关的蛋白，如酶、受体和分子机器测量技术：通过同位素标记和NMR弛豫分散，可以精确测量翻转速率和能垒，为功能研究提供定量参数数据库建立：未来可以建立芳香环翻转动力学数据库，系统比较不同蛋白、不同突变体、不同环境下的动力学特性多尺度整合方法学：本研究成功整合了NMR实验和MD模拟，形成了实验-模拟的正向循环，这种多尺度方法学可以推广到其他动力学过程的研究，如loop运动、结构域重排等技术发展：随着计算能力的提高和算法的改进，MD模拟将能够处理更大体系和更长时间尺度，与实验数据的结合将更加紧密和精确人工智能辅助的动力学预测：基于本研究收集的实验和模拟数据，可以训练机器学习模型来预测蛋白质动力学特性深度学习应用：例如，通过深度学习模型从序列和结构预测芳香环翻转速率，或者从晶格接触模式预测动力学抑制效应工程应用：这将大大加速蛋白质工程和设计的进程，实现对动力学的理性调控时间分辨的结构生物学技术：虽然本研究主要采用稳态NMR测量，但时间分辨的X射线晶体学和低温电子显微镜技术正在快速发展，能够直接观测蛋白质动力学过程，结合这些新技术，本研究建立的动力学探针策略将能够提供更直接、更高时间分辨率的结构-动力学关联数据，推动结构生物学从静态向动态的转变

Molecular Dynamics · 2026-06-18

（上篇）如何准确模拟阳离子-π相互作用？新型力场模型补齐关键短板

Molecular Dynamics · 2026-06-16

（下篇）如何准确模拟阳离子-π相互作用？新型力场模型补齐关键短板

Molecular Dynamics · 2026-06-16

AMDAT——用于聚合物纳米复合材料空间分辨MD轨迹分析的工具

Molecular Dynamics · 2026-06-09

PUCHIK：非球形纳米粒子界面分析的Python工具包

PUCHIK工具包——非球形纳米粒子界面、密度与体积的自动化分析本文信息标题：PUCHIK：用于分析非球形纳米粒子分子动力学模拟的Python工具包作者：Hrachya Ishkhanyan，Alejandro Santana-Bonilla，Christian D. Lorenz 发表期刊：Journal of Chemical Information and Modeling 发表时间：2025年2月10日（第65卷，1694-1701页） DOI：https://doi.org/10.1021/acs.jcim.4c02128 单位：英国伦敦国王学院（King’s College London）物理系与工程系；亚美尼亚国家科学院信息学与自动化学研究所引用格式：Ishkhanyan, H.; Santana-Bonilla, A.; Lorenz, C. D. (2025). PUCHIK: A Python Package To Analyze Molecular Dynamics Simulations of Aspherical Nanoparticles. J. Chem. Inf. Model., 65, 1694-1701. https://doi.org/10.1021/acs.jcim.4c02128 代码与数据：PUCHIK软件包与本文模拟输入文件：https://github.com/hrachishkhanyan/PUCHIK/tree/alpha_shapes；补充信息见ACS页面：https://doi.org/10.1021/acs.jcim.4c02128 摘要准确描述纳米粒子的界面对于理解其内部结构、界面性质乃至最终功能至关重要。虽然当前计算方法对球形和准球形纳米粒子提供了合理的描述，但针对胶囊状和棒状体系等非球形结构的有效模型仍然存在需求。本工作引入了Python Utility for Characterizing Heterogeneous Interfaces and Kinetics（PUCHIK），这是一种为描述球形和非球形纳米粒子而开发的新算法。通过准确描述纳米粒子界面的位置，该算法允许计算各种重要物理量（例如不同原子/分子类型相对于界面的密度、纳米粒子体积、纳米粒子内溶解分子数等）。PUCHIK基于SciPy、MDAnalysis和Cython构建，提供了经过优化的Python实现，执行时间与粒子数呈线性关系。PUCHIK能够可靠地表征纳米粒子界面，为纳米科学和纳米技术中的in silico材料设计提供了强大工具。摘要图：PUCHIK的核心工作流程——从MD结构到原子点集、再到Convex hull和Alpha shape两种界面建模方法的完整流程。Convex hull形成凸形包络，Alpha shape则生成贴合粒子实际形貌的凹形界面。核心结论 PUCHIK提供了面向非球形纳米粒子（胶囊状、棒状等）的界面表征流程，弥补了传统径向分析对球形或准球形结构依赖过强的局限采用alpha shape和convex hull两种方法定义界面，通过Cython优化后实现与粒子数呈线性关系的计算复杂度在TX100胶束和吲哚美辛共溶剂体系的对比测试中，PUCHIK成功避免了nanoCISC算法的水密度虚高问题，得到的密度分布更符合核-壳物理模型密度计算默认开启多进程并行，可结合Cython将单帧计算时间从0.40秒降至0.12秒（约3.3倍加速）软件包开源、脚本化程度高，密度计算通常只需少量代码即可完成，适合作为纳米粒子界面分析的可复用工具背景纳米粒子的界面表征是理解其结构-性质关系的核心。传统的密度分析方法（如以质心为基准的径向密度分布）对球形粒子效果良好，但对非球形粒子（如胶囊状、棒状、不对称胶束）会产生严重误判。现有工具如nanoCISC虽能处理部分复杂形貌，但在计算密度时可能出现水密度虚高、组分密度分布不合理等问题。PUCHIK通过计算几何方法（alpha shape和convex hull）精确定义纳米粒子的核心-壳界面，进而计算相对于界面的密度分布和体积。配套资源算法依赖：SciPy（ConvexHull，即Qhull库的Python封装）、MDAnalysis（轨迹/拓扑管理）、Cython（性能优化）、CGAL（用C++实现alpha shapes）计算复杂度：$O(mN)$，其中$m$为凸包顶点数，$N$为粒子数，实测执行时间与$N$呈线性关系优化策略：支持Python单进程（SP）、多进程（MP）以及Cython加速，MP模式可将单帧计算时间从0.40秒降至0.13秒适用体系：固体、空心、介孔材料，以及表面活性剂胶束、药物纳米载体等软物质体系对于涉及非球形纳米粒子、表面活性剂自组装、药物纳米载体等体系的MD研究者，PUCHIK的价值不在于替代所有结构分析，而在于把“先定义真实界面，再沿界面法向统计密度”这一步做成了可复用的程序接口。这类工具能减少不同课题组重复编写临时脚本时产生的误差，也让球形、椭球形、胶囊状和弯曲聚集体的结果更容易放在同一套坐标系下比较。创新点 alpha shape界面定义：将alpha shape作为convex hull之外的可选界面模型，能够描述凹陷、弯曲或不规则结构，避免convex hull把空腔和弯曲间隙一起包进去；alpha shape可由CGAL自动选参，$\alpha\to\infty$ 时自动退化为convex hull 线性时间复杂度：通过Cython优化和多进程并行，实现与粒子数呈线性关系的执行时间，显著优于传统方法非球形体系适用性：专门针对胶囊状、棒状等非球形纳米粒子设计，突破了球形假设的局限模块化设计：包结构分为core（Interface类）与utilities（ClusterSearch等辅助工具）两个子包，功能相互独立、便于扩展化学无关设计：PUCHIK并不依赖特定表面活性剂或药物分子，而是把纳米粒子抽象成一组原子点云和由点云生成的界面。因此，只要能明确选出构成核心结构的原子，同一套界面统计思想就可以迁移到其他纳米粒子体系。研究内容一、方法学设计 PUCHIK的命名来自亚美尼亚语的“气球”，寓意其能适应各种形状的纳米粒子。整个包建立在以下组件之上：SciPy（ConvexHull类构建凸包界面）、CGAL（在C++层面实现alpha shapes）、MDAnalysis（读取轨迹和拓扑）、Cython（优化计算密集型部分）。PUCHIK的密度计算分为四个步骤：构建界面（convex hull或alpha shape）→ 将模拟盒离散化为等大立方格子 → 计算每个格点中心到界面的距离（界面内为负值）→ 在各格子内累加密度并归一化。这里的关键不是重新发明密度统计，而是把坐标原点从质心改成了真实纳米粒子界面。 graph TB subgraph S1["1.输入与拓扑"] direction LR A["读取topology与trajectory （MDAnalysis）"] B["选择核心原子 （MDAnalysis选择语法）"] end subgraph S2["2.界面构建"] direction LR C{"界面建模方法？"} D["Convex Hull （SciPy与Qhull）"] E["Alpha Shape （CGAL，C++）"] end subgraph S3["3.密度计算"] direction LR F["模拟盒离散化 （norm_bin_count控制格数）"] G["计算格点到界面距离 （界面内为负）"] H["逐格累计原子数 并归一化"] end subgraph S4["4.结果输出"] direction TB I["密度分布"] J["体积与表面积 （area=True）"] K["溶解分子数 （凸包内）"] end A --> B --> S2 C -->|默认| D C -->|use_alpha_shapes=True| E D --> F E --> F F --> G --> H --> S4 PUCHIK的实际使用方式是先用拓扑文件和轨迹文件创建Interface对象，再用MDAnalysis选择语法指定构成纳米粒子核心的原子，最后调用calculate_density计算相对界面的密度。这类密度计算通常少量代码即可完成，但接口名称应以软件包实际方法为准： from puchik.core import Interface interface = Interface(topology_path, trajectory_path) interface.select_structure("selection for nanoparticle core") density = interface.calculate_density("selection for density target") 整套工具采用化学无关设计——虽然示例主要来自表面活性剂体系，算法可应用于可以定义核心点云的纳米粒子体系。core子包提供核心类Interface及其方法（calculate_density、calculate_volume、calculate_volume(area=True)分别对应密度、体积、表面积）；utilities子包提供ClusterSearch.find_clusters（聚类识别）、make_whole（跨PBC聚集体完整化）、center_in_memory/center_to_file（聚集体居中）等预处理工具。整套工具结合后，PUCHIK成为从原始轨迹到界面性质的完整分析流水线。二、界面定义：Convex Hull vs Alpha Shape PUCHIK提供两种界面定义方法：convex hull（凸包）和alpha shape（α形状）。Convex hull是包含所有点的最小凸集，计算更快，适合多数没有明显凹陷的核心结构；alpha shape则像用一个半径由α控制的探针在点云之间“掏空”空隙，可以生成更凹、更贴合弯曲结构的界面。alpha作为自由参数，若用户不指定，CGAL会自动选择合适的α值；同时$\alpha\to\infty$时alpha shape会退化为convex hull，便于两个方法之间的统一对比。图1：标准几何体测试——用圆柱和球形验证PUCHIK的密度计算准确性。图1a：测试结构——左为圆柱（半径和半高均为2.9 nm），右为球形（半径2.9 nm）图1b：标准方法（左，以质心为基准）与PUCHIK算法（右，以convex hull界面为基准）的密度对比。横轴为到质心或界面的距离$r$，负值代表位于核心内部 PUCHIK计算的密度与理论值（$0.0375\,\mathrm{Å^{-3}}$）吻合良好。更重要的是，以质心为基准的做法在球形体系中还能给出合理结果，但在圆柱体系中会把长轴方向仍有粒子、短轴方向已经出界的空间混在同一半径上统计，导致界面外仍出现非零密度。PUCHIK改用界面距离后，球形和圆柱的密度曲线可以回到同一个物理基准上。三、非球形胶束案例分析：TX100体系本文以Triton X-100表面活性剂胶束（TX100）为例，对比PUCHIK与现有工具nanoCISC在非球形体系中的表现。该胶束来自TX100与吲哚美辛共溶体系，形状明显拉长，由6750个重原子组成，尺寸约110 Å × 84 Å × 74 Å。图2：TX100胶束的密度计算对比——展示PUCHIK在真实非球形体系中的优势。图2a：拉长的TX100胶束的快照图2b：nanoCISC算法计算的水（蓝色）、Triton X-100头基（橙色）和疏水尾（绿色）密度分布——水密度高于体相水的期望平均值（约$0.033\,\mathrm{Å^{-3}}$），并暗示疏水核心内部存在大量水分子；头基和尾基在核心内进入平台区，且头基密度高于疏水尾密度，不符合稳定核-壳模型图2c：PUCHIK算法计算的密度分布——PEO密度在$r=0$附近达到峰值后逐渐降为0，符合以界面为参照时对亲水壳层厚度的预期 nanoCISC的主要问题在于两点：水密度虚高（计算得到的水密度高于体相水密度约$0.033\,\mathrm{Å^{-3}}$）和结构不合理（头基密度在核心内高于尾基密度，不符合典型核-壳胶束的分布）。相比之下，PUCHIK通过准确界定界面，得到的结果更接近球形TX100胶束的核-壳图像，也能直接估算非球形纳米粒子的核心或壳层厚度。四、Alpha Shape的优势：处理凹形界面对于具有凹陷或复杂形貌的纳米粒子，convex hull会过度包裹，导致密度计算出现偏差。Alpha shape方法通过调节α参数，能够生成更贴合实际形貌的凹形界面。典型场景包括弯曲胶束、水填充空腔、脂质体或介孔结构：这些体系的内部空隙在物理上不应被简单算作纳米粒子核心体积。图3：Convex Hull vs Alpha Shape对比——同一表面活性剂纳米粒子的两种界面建模方法。图3a：Convex hull建模——红色区域虽属于凸包，但几乎不含粒子原子，被水分子填充图3b：Alpha shape建模——形成凹形界面，更贴合纳米粒子的整体形状图3c：使用convex hull计算的密度（水为蓝色、头基为橙色、疏水尾为绿色）——水密度在核内显著偏高图3d：使用alpha shape计算的密度（颜色同c）——水密度明显降低，更符合物理现实 Alpha shape通常包裹更小的体积（剔除凸包中的空区），但因界面原子数不变，单位体积内的密度反而更高。这意味着基于alpha shape计算得到的密度分布更贴近真实物理情况，尤其适合研究界面附近水分子分布、内部空腔可及性和纳米粒子壳层厚度。代价也很清楚：alpha shape比convex hull更耗时，因此这里存在精度与性能之间的取舍。五、计算性能：线性时间复杂度 PUCHIK通过Cython优化和多进程并行，实现了与粒子数呈线性关系的执行时间。性能测试使用含约168,989个原子的体系（其中约51,000个水分子、约1,100个界面原子），结果显示：图4：执行时间与粒子数的线性关系——展示PUCHIK的可扩展性。表1：不同优化技术的单帧执行时间对比优化技术执行时间（秒/帧）加速比（基于单进程Python） Python SP（单进程） 0.40 1.0× Python + Cython SP 0.37 1.1× Python MP（多进程） 0.13 3.1× Python + Cython MP 0.12 3.3× 注：加速比基于表1的执行时间计算（0.40/0.40=1.0、0.40/0.37≈1.1、0.40/0.13≈3.1、0.40/0.12≈3.3）。多进程模式带来约3倍加速，Cython额外贡献约6%（Cython SP）和约11%（Cython MP）的提升，使PUCHIK能够高效处理大规模体系。线性时间复杂度保证了算法在大体系、长轨迹分析中的可扩展性。密度计算默认在所有CPU核上并行（可通过mp=False关闭或cpu_count控制核数），同时start、skip和end参数可用于选择轨迹区间，norm_bin_count可控制密度归一化所需的空间分箱数量。对于需要批量分析多帧轨迹的用户，真正需要调的通常不是算法本身，而是分箱尺度、CPU核数和轨迹抽样间隔。关键结论 PUCHIK为非球形纳米粒子的界面表征提供了准确且高效的解决方案。通过alpha shape和convex hull两种方法，PUCHIK能够界定界面，进而计算相对界面的密度分布和体积。在TX100胶束测试中，PUCHIK避免了nanoCISC的水密度虚高问题；在alpha shape对比中，降低了convex hull带来的过度包裹误差。 PUCHIK的核心优势在于线性时间复杂度和物理上合理的结果。多进程模式带来约3倍加速，Cython再叠加约6%至11%的提升，使其能够高效处理大规模体系，大体系、长轨迹分析的可扩展性得以保证。本文把PUCHIK定位为支持in silico材料设计的界面分析工具。更具体地说，它解决的是一个很基础、但在非球形体系中很容易出错的问题：到底应该相对于哪一个界面来统计密度、体积和内部溶解分子数。局限性 Alpha shape的α参数可由CGAL自动选择，但不同α值对应不同的界面细节尺度，用户仍需要根据体系物理图像判断convex hull和alpha shape哪个更合适本文主要用表面活性剂胶束及相关软物质体系验证工具效果，对金属纳米粒子、无机介孔材料等硬物质体系的迁移性仍需要更多案例检验 PUCHIK目前不支持命令行执行，必须在Python解释器中运行，对不熟悉Python脚本工作流的用户有一定门槛 Alpha shape相比convex hull有更高计算成本，精细界面并不总是免费午餐；在长轨迹中是否值得开启，需要结合形貌复杂度与分析目标决定

Molecular Dynamics · 2026-06-08

PySoftK v1.0：软物质自组装的自动化分析工具集

PySoftK v1.0工具集：软物质自组装界面、相互作用与动力学的自动化分析本文信息标题：Automated Analysis of Soft Matter Interfaces, Interactions, and Self-Assembly with PySoftK 作者：Raquel López-Ríos de Castro, Alejandro Santana-Bonilla, Robert M. Ziolek, Christian D. Lorenz 发表期刊：Journal of Chemical Information and Modeling 发表时间：2025年2月10日 DOI：https://doi.org/10.1021/acs.jcim.4c01849 单位：英国伦敦国王学院（King’s College London）物理系引用格式：López-Ríos de Castro, R.; Santana-Bonilla, A.; Ziolek, R. M.; Lorenz, C. D. (2025). Automated Analysis of Soft Matter Interfaces, Interactions, and Self-Assembly with PySoftK. J. Chem. Inf. Model., 65(6), 1679-1684. https://doi.org/10.1021/acs.jcim.4c01849 摘要分子动力学（MD）模拟已成为研究软物质和生物大分子的核心工具，但与其相关的海量高维数据并不能直接揭示复杂材料和分子过程背后的原子机制。软物质模拟分析的内在复杂性需要谨慎应用特定的、往往复杂的算法来提取有意义的分子层面理解。对于高质量自动化计算工作流的需求持续存在，以便以最小用户输入和可复现方式促进此类分析。在本工作中，我们引入了一系列分子模拟分析工具，用于研究界面、分子相互作用（包括环-环堆叠）和自组装。此外，我们还包含了若干辅助工具，包括一个用于 unwrapping长度超过其模拟盒一半的分子结构的实用函数。这些工具包含在PySoftK软件包中，使用户能够直接应用这些算法。PySoftK中的这些新模拟分析工具将支持软物质和生物大分子模拟的高质量、可复现分析，从而为纳米技术和生物技术带来新的预测性理解。摘要图：PySoftK的核心分析功能——包含make structures whole、contacts、intrinsic density、radius of gyration、ring stacking analysis、spatial clustering六大模块的概览。核心结论 PySoftK v1.0提供了化学无关的独立分析模块，可应用于任何软物质或生物大分子体系重点解决三个常被忽视的难题：跨越大尺寸的PBC处理、复杂界面的本征表征、自组装动力学的快速追踪首次实现当纳米粒子跨越大半盒尺寸时仍能正确重构的工具make_micelle_whole 算法兼容MDAnalysis，借助其拓扑与轨迹管理能力，输出格式与MDAnalysis完全兼容开源、配套教程笔记本与测试套件，有望成为软物质模拟分析标准化的重要平台配套资源 GitHub仓库：https://github.com/alejandrosantanabonilla/pysoftk，提供完整源码、测试套件、教程笔记本与可复现轨迹依赖：MDAnalysis v2.5（轨迹/拓扑管理）、NumPy（数值计算）、Pandas（结果输出）、Networkx（图论分析）架构：pysoftk.pol_analysis是v1.0新增的模块，与早期PySoftK版本组合，工具分两大类——聚集体性质（密度、$R_g$、eccentricity、PBC unwrapping）与分子尺度相互作用（环-环堆叠、solvation、contacts）支持系统：Linux、macOS（Python 3.7+），距离计算通过concurrent.futures或MDAnalysis.lib.distances并行化对于涉及自组装、纳米材料、药物载体、两亲性生物大分子等体系的MD研究者，PySoftK v1.0提供了一个轻量但专业的分析层，建议作为标准工作流的一部分。背景软物质涵盖化妆品、制药、水处理等众多材料科学应用。自组装作为软物质的核心现象，构成了从胶束、囊泡到纳米粒子等结构的基础。理解分子结构、构象动力学和分子间相互作用的相互关系，是建立可推广的结构-性质关系以支持软物质材料理性设计的关键。 MD模拟虽然能在原子层面研究这些过程，却产生了海量高维数据。解读这些数据往往需要专门的分析工具，导致定量结果难以复现。社区虽然在简化输入文件创建方面已有很多工具（PySoftK早期版本、Polymer Structure Predictor、Radonpy、MoSDeF等），但分析软物质性质的综合包尚未见报道。 PySoftK v1.0正是为填补这一空白而设计——在统一的计算框架内，建模与分析可在现代软件开发标准下无缝衔接，缓解数据溯源和可重复性问题。创新点大尺寸聚集体PBC unwrapping：首次实现当纳米粒子跨越大半盒尺寸时仍能正确重构的工具make_micelle_whole，弥补MDAnalysis v2.5和GROMACS 2023的不足本征密度方法（ICSI, Intrinsic Core–Shell Interface）：针对非球形或粗糙界面的纳米粒子，提供intrinsic_density工具，避免球面假设带来的误判环-环堆叠分析（RSA, Ring Stacking Analysis）：专门为大型软物质体系设计的算法，三阶段筛选识别跨分子的π-π相互作用空间聚类协议（SCP, Spatial Clustering Protocol）：基于图论快速追踪自组装过程中分子聚类变化，输出Pandas DataFrame便于后续分析论文写作策略：本文采用代表性功能展示而非严格的性能benchmark，通过四大经典案例（PEO–PMA聚合物胶束的密度对比、自组装追踪、PBC unwrapping对比、$R_g$计算误差）来证明PySoftK的有效性和应用范围，重点展示工具在软物质和生物大分子场景的迁移性。工具能力速览工具类代表函数核心功能适用场景界面分析 spherical_density、intrinsic_density 沿球面/界面计算密度胶束、纳米粒子、核-壳结构接触/相互作用 contacts、solvation 原子对距离判定任意两分子相互作用量化环-环堆叠 ring_stacking_analysis 三阶段π-π筛选共轭聚合物、蛋白-配体自组装追踪 SCP 图论聚类+时序输出胶束化、囊泡形成动力学 PBC unwrapping make_micelle_whole 聚集体质心参考的重构大于半盒尺寸的纳米粒子辅助函数 radius_of_gyration、eccentricity 结构参数计算形状表征研究内容一、方法学设计 PySoftK的所有分析功能完全建立在MDAnalysis之上，由MDAnalysis负责拓扑与轨迹管理，PySoftK专注于上层分析算法。这一设计带来两个直接好处：格式兼容性：自动支持MDAnalysis能读取的所有格式（GROMACS、NAMD、AMBER、CHARMM等），用户无需关心底层IO 生态兼容性：分析输出可与MDAnalysis Universe、AtomGroup等对象无缝衔接，直接接入既有工作流整套工具采用化学无关设计——虽然最初关注聚合物，但分析模块可应用于任何软物质或生物大分子体系，包括两亲性肽自组装、药物-蛋白共轭物、纳米药物载体等。配套的测试套件覆盖核心算法，教程笔记本（GitHub提供）则手把手演示典型用例，确保可重复性。GitHub仓库还附带短轨迹样例数据，用户可复现论文中所有图表。二、界面分析 PySoftK提供两套界面分析工具：球面密度（以聚集体质心为基准计算径向密度分布，适用于近球形粒子）和本征密度（以核-壳界面为基准计算密度分布，适用于非球形或粗糙界面）。图1：球面密度与本征密度计算对比——以$\ce{PEO–PMA}$双嵌段共聚物形成的球形胶束为例，展示两种密度计算方法的效果。PEO为聚环氧乙烷（亲水），PMA为聚甲基丙烯酸酯（疏水）。图1a（球面密度）：横轴为到聚集体质心的距离$r$，纵轴为密度$\tilde{\rho}(r)$。青色为$\ce{EO}$（环氧乙烷单体），粉色为$\ce{MA}$（甲基丙烯酸酯单体），深蓝为水图1b（本征密度）：横轴为到核-壳界面的距离，$r=0$即界面位置（负值表示核区）。本征密度用ICSI算法先将分子分为”核”或”壳”，再以界面为基准计算密度。相比球面密度，本征密度能更清晰地揭示水在界面的精细结构——在$r \approx 5$ Å处的水密度小峰指示弱疏水界面核主要由疏水的$\ce{MA}$单体组成，亲水的$\ce{EO}$单体形成电晕，水有部分渗入。本征密度法的核心优势：它通过ICSI（Intrinsic Core–Shell Interface）算法将胶束分子按”属于核还是壳”自动分类，然后以核-壳界面为基准计算密度分布，避免了球面假设带来的误判。值得说明的是，ICSI的归一化因子无法解析求解，因此PySoftK采用蒙特卡洛积分计算——这是少数几个对计算资源有明确要求的地方。三、分子尺度相互作用这一部分包含环-环堆叠、溶剂化分析、接触计数三个工具，都是基于原子对距离的简单判定，配合用户定义的截断距离即可工作。环-环堆叠分析（RSA, Ring Stacking Analysis）：用于识别共轭聚合物、蛋白质等体系中的π-π相互作用。SI展示了RSA在TREM12-DAP12蛋白复合物中的应用，证明其在生物大分子场景下的适用性。采用三阶段筛选策略：阶段1：自动检测所有属于芳香环的原子阶段2：以环中心几何距离<10 Å为判据，筛选处于接触距离内的环对阶段3：对通过前两阶段的环对，进一步要求两环间任意原子距离<4 Å、且两环平面法向夹角<20°，才被判定为有效堆叠溶剂化分析（solvation）：通过用户自定义的距离截断判定第一溶剂化壳内的溶剂分子数，进而量化两亲性软物质中疏水/亲水相互作用。当以水为溶剂时，SI建议只选水中的氧原子以加速计算；输出的solvation_number为列表，每项对应一帧中所有选中单体的平均配位数。接触计数（contacts）：通过测量所选原子间的距离判定接触关系，是最通用的相互作用量化工具。图S16：RSA在生物大分子体系中的应用——展示RSA在TREM2-DAP12蛋白复合物中识别π-π相互作用的能力。图S16a：RSA在聚合物熔体体系中的应用，紫色箭头指向通过RSA识别出的、通过环堆叠相互作用的无定形相聚合物聚集体图S16b：RSA应用于TREM2-DAP12蛋白复合物，识别驱动蛋白-蛋白相互作用的环堆叠事件。TREM2显示为粉色，DAP12显示为绿色，粗体表示检测到的环堆叠相互作用，膜磷酸基团显示为深绿色这证明了RSA不仅适用于软物质体系，在生物大分子场景下同样有效。四、自组装追踪：空间聚类协议（SCP）图2：自组装过程追踪——以$\ce{PEO–PMA}$双嵌段聚合物为例演示SCP算法。图2a：模拟开始时，30个聚合物分子随机分散（每种颜色代表不同分子），水未显示图2b：模拟后形成一个大的橙色胶束和一个小的青色胶束图2c：最大聚集体中聚合物数量随时间的变化曲线——在1 μs内通过阶跃式聚集形成最终结构，每个平台期对应一次聚并事件 SCP算法用图论表示聚集体：每个分子是节点，距离小于截断的两分子间有边，连通子图即为一个聚类。算法快速到能分析整个轨迹的自组装动力学，输出Pandas DataFrame，列包括分子残基ID和对应时刻的聚类大小，便于二次分析。在该示例中，曲线清晰呈现两个明显的阶跃期——分别对应1 μs内的两次聚并事件。图S4：SCP在MARTINI2粗粒化蛋白模拟中的应用——分析16个APP跨膜肽在POPC脂双层中的聚集情况，蓝色簇含2个肽、粉色簇含6个肽、橙色簇含8个肽、银色区域为POPC脂双层，展示了SCP的化学无关性可扩展至生物大分子体系。此图清晰证明SCP算法不仅适用于聚合物胶束，还能有效分析跨膜肽等生物大分子的聚集行为。五、大尺寸聚集体的PBC unwrapping 当自组装形成的纳米粒子跨越模拟盒的半盒长度时，传统工具（如gmx trjconv -pbc mol）都无法正确处理——这是软物质模拟中非常常见但被忽视的问题。图3：用PySoftK unwrapping跨越PBC的聚合物纳米粒子——（a）原始构象中聚合物胶束跨越盒子边界。图3a：跨越PBC的聚合物纳米粒子——可以看到分子被分割到盒子两端图3b：PySoftK的make_micelle_whole成功重构——所有分子被正确地放回同一侧图3c：MDAnalysis的 unwrapping结果——明显失败，分子仍被错误分割图3d：GROMACS 2023的 unwrapping结果——同样失败图3对比显示PySoftK在处理大尺寸软物质聚集体时的显著优势。 make_micelle_whole的工作原理：先识别属于同一聚集体（自组装形成的纳米粒子）的所有分子，再以聚集体质心为参考，将被PBC分割到盒子另一侧的分子整体平移回正确位置。六、 unwrapping错误的连锁影响：$R_g$计算图4： unwrapping错误对回转半径计算的影响——以$\ce{PEO–PMA}$纳米粒子为例，说明错误unwrap会导致分析假象，论证make_micelle_whole对软物质自组装分析的关键性。图4a：跨越PBC的纳米粒子初始构象图4b：用MDAnalysis unwrapping后，radius_of_gyration()算出的$R_g$随时间剧烈震荡，数值完全不可信图4c：用PySoftK的make_micelle_whole unwrapping后，$R_g$曲线平滑稳定在约20 Å，与重构胶束的直径64 Å（图4d标注）相吻合图4d：重构后胶束的实空间快照，标注直径为64 Å作为参照简单分析任务也会因错误的PBC处理而失败（如$R_g$计算），make_micelle_whole是软物质模拟可靠分析的必要前提。PBC处理不是模拟结束后的可选后处理，而是分析链路的强制前置环节。七、辅助函数除核心分析模块外，PySoftK还提供回转半径（$R_g$）与偏心率（eccentricity）等结构参数的计算工具，便于自组装结构的形状表征。所有分析输出与MDAnalysis完全兼容（PySoftK本身就基于MDAnalysis管理拓扑与轨迹），可无缝接入既有工作流。关键结论 PySoftK v1.0为软物质模拟分析提供了完整的独立模块，重点解决三个常被忽视的难题：跨越大尺寸的PBC处理、复杂界面的本征表征、自组装动力学的快速追踪。算法化学无关——虽然最初关注聚合物，但分析模块可应用于任何软物质或生物大分子体系。 PySoftK v1.0的核心优势在于正确处理PBC下大于半盒尺寸的分子聚集体——这在软物质自组装模拟中极为常见，却是MDAnalysis v2.5和GROMACS 2023等主流工具的盲区。论文明确指出：”其他软件工具并未针对这种大尺寸分子聚集体进行设计“。 PySoftK v1.0的开源特性、配套测试套件与教程笔记本，使其有望成为促进软物质模拟分析标准化的重要平台，有助于不同模拟之间的准确比较，支持理性in silico材料设计。同时，PySoftK v1.0已将所有分析工具整合为可独立调用的独立模块，未来扩展（如液晶、凝胶等体系）有清晰的接口基础。局限性部分算法（如intrinsic_density中的归一化因子）需通过蒙特卡洛积分计算，对计算资源有一定要求工具主要在聚合物/胶束体系验证，对其他软物质形态（如液晶、凝胶）的迁移性有待考察论文中所有案例所用的$\ce{PEO–PMA}$双嵌段聚合物轨迹来源于团队已发表的其他工作，PySoftK本身不提供通用的力场或结构生成器，仅专注于分析侧全文只展示了make_micelle_whole对$\ce{PEO–PMA}$胶束的重构效果，多分散聚集体、非对称形状聚集体（棒状、囊泡）的适用性需进一步测试 PySoftK v1.0仅支持Linux与macOS系统，且需要Python 3.7+，Windows用户需通过WSL等方式间接使用

Molecular Dynamics · 2026-06-06

AMDAT——面向过冷液体与玻璃态体系的长时标MD分析工具

AMDAT——面向过冷液体与玻璃态体系的长时标MD分析工具本文信息标题：AMDAT: An Open-Source Molecular Dynamics Analysis Toolkit for Supercooled Liquids, Glass-Forming Materials, and Complex Fluids 作者：Pierre Kawak, William F. Drayer, David S. Simmons 发表时间：2026年2月5日（arXiv预印本） DOI：https://doi.org/10.48550/arXiv.2602.05865 单位：南佛罗里达大学化学、生物与材料工程系（美国）；宾夕法尼亚大学材料科学与工程系（美国）引用格式：Kawak, P., Drayer, W. F., & Simmons, D. S. (2026). AMDAT: An Open-Source Molecular Dynamics Analysis Toolkit for Supercooled Liquids, Glass-Forming Materials, and Complex Fluids. arXiv:2602.05865. https://doi.org/10.48550/arXiv.2602.05865 对想尝试AMDAT的读者，建议如下三步：克隆仓库：git clone https://github.com/dssimmons-codes/AMDAT.git，参照README.md安装依赖（C++编译器、CMake）跑通tutorial：仓库tutorials/目录提供了从加载轨迹到计算RDF、$S(q)$和MSD的完整脚本，建议先按KG或binLJ的案例复现一遍读开发者文档：dssimmons-codes.github.io/AMDAT 提供了关键类与接口说明，扩展新分析时参照analysis目录下的类定义模式即可摘要 AMDAT（Amorphous Molecular Dynamics Analysis Toolkit）是一个开源C++工具包，用于对分子动力学（MD）轨迹进行后处理，重点支持非晶态、玻璃态与聚合物材料以及复杂流体的高性能静态与动态分析，其中包括过冷液体。本文介绍AMDAT的两个核心设计思路：内存中的轨迹处理与指数时间采样。这两点主要服务于长时标相关函数分析，并以径向分布函数（RDF）、结构因子、中间散射函数（ISFS）及邻居相关函数为例展示其典型工作流。核心结论聚焦非晶态体系：AMDAT专为过冷液体、聚合物、玻璃态和复杂流体的结构与动力学分析设计，填补了通用分析包在长时相关函数与多组分体系上的空白内存加载 + 指数时间采样：整条轨迹一次性读入内存，短时密集采样、长时指数变粗，可在不显著增加文件体积的前提下覆盖多个数量级的时间窗口模块化数据抽象：以trajectory list、neighbor list、multibody list、value list四种核心对象为基石，可自由组合、过滤、构造新分析，无需修改内核代码可观测物理量齐全：RDF、$S(q)$、ISFS、自Van Hove函数、邻居去相关函数、非高斯参数等一应俱全，这套代码在Simmons组维护超过15年，并支撑了数十篇相关论文格式与脚本友好：原生支持LAMMPS dump/xyz，对GROMACS xtc支持有限；输入脚本支持循环、条件、变量赋值，方便批处理和复用背景过去30年分子动力学模拟方法学已相当成熟，GROMACS、LAMMPS、NAMD、AMBER、HOOMD-blue、OpenMM等主流引擎在速度、可扩展性、力场支持上持续完善。但分析端是另一回事。通用工具（如MDAnalysis、OVITO）覆盖面广，专门为非晶态、玻璃态、复杂流体设计的分析包仍然不多。这类体系的弛豫时间很长，线性采样的轨迹在长延迟处可用帧对很少，短延迟处又会重复计算大量相近帧对；RDF、$S(q)$等结构量看似成熟，但邻居判定标准、Voronoi与距离截断的差异、长时自相关函数的统计这些细节，很多时候仍然需要研究者自己写脚本。 AMDAT是Simmons组在长期研究过冷液体和聚合物玻璃化的过程中逐步搭建起来的工具集，已在多个已发表研究中应用。这篇预印本系统介绍了它的设计思路、核心抽象、输入脚本和典型用例。文章使用的代表体系共有六个：3D/2D二元Lennard-Jones液体、Kremer–Grest（KG）粗粒化聚合物链、纳米粒子填充交联KG弹性体（PNC）、30mer和100mer聚苯乙烯熔体（PS-30mer/PS-100mer）。本文主线只展开与图1到图7直接相关的体系。 AMDAT干的是MD引擎跑完之后的轨迹分析。LAMMPS或GROMACS输出轨迹后，AMDAT负责计算RDF、MSD、ISFS、邻居去相关等量。对过冷液体、玻璃化转变和聚合物慢弛豫来说，时间尺度常常跨很多数量级，能按指数时间间隔读帧和分析，是它最实用的设计之一。 graph TB subgraph S1["上游：MD模拟引擎"] direction LR A1["LAMMPS"] --> X["轨迹文件 dump/xyz/xtc"] A2["GROMACS"] --> X end subgraph S2["AMDAT核心：四种数据抽象"] B1["trajectory list 粒子随时间的轨迹"] B2["neighbor list value list特化 距离/Voronoi邻居"] B3["multibody list 分子/簇/协同结构"] B4["value list 每帧每粒子标量"] end X --> S2 subgraph S3["下游：observables与分析"] C1["静态结构 RDF/S(q)/Voronoi"] C2["动力学 MSD/ISFS/NGP/NDF"] C3["协同运动 多体相关函数"] C4["per-particle属性 位移/邻居数/局部序"] end B1 --> C1 B1 --> C2 B2 --> C2 B2 --> C4 B3 --> C3 B4 --> C4 subgraph S4["输出与可视化"] direction LR D1["纯文本输出 Python/Matlab可读"] D2["PDB beta列 VMD/OVITO"] C1 --> D1 C2 --> D1 C3 --> D1 C4 --> D2 end 关键科学问题长时标采样的统计瓶颈：在玻璃态体系中，结构弛豫时间$\tau_\alpha$可达微秒甚至秒级，线性采样会让长延迟处几乎无帧可用；如何在存储开销可控的前提下让MSD、ISFS等长时相关函数获得稳定的统计？非晶态局部环境难以量化：非晶态结构没有晶体那样清楚的晶胞和配位壳层，局部邻居环境的拓扑与动力学却直接关系到玻璃化行为，如何在统一框架下系统追踪这些“动态邻居”？多组分体系中的物种分辨分析：二元甚至三元非晶态体系的快慢组分、动态不均匀性、空间关联长度都需要按物种切片的观察能力，通用工具的多组分支持往往不够顺手可复现的分析管线：玻璃态模拟的数据量可能达到GB至TB级，用脚本描述完整分析流程是确保可复现性的前提创新点指数时间采样（Exponential time sampling）：默认按指数方式采样帧，短时密、长时疏；在PS-100mer示例中，同样771帧的指数轨迹覆盖的对数时间跨度超过线性轨迹的两倍。这是AMDAT相对通用工具最有辨识度的方法学优势以列表为核心的模块化数据抽象：四种基本列表对象（trajectory / neighbor / multibody / value）可叠加、可过滤、可重用，让新分析能在不修改核心代码的前提下装配出来全面的per-particle可观测通道：每个原子的位移、邻居数、邻居去相关率、位移分布等都可输出为PDB/xyz等格式的per-atom列，直接接入VMD、OVITO等可视化工具多年沉淀的观测物理量：RDF、$S(q)$、ISFS、NGP、NDF、Van Hove、邻居去相关等在Simmons组的多篇论文中验证过（如参考文献21、22、23的聚合物纳米复合材料），对非晶态研究者来说基本开箱即用研究内容一、设计哲学与软件架构 AMDAT采用内存中处理 + 面向对象 + 脚本化的设计路线。运行时将整条轨迹读入内存以避免反复I/O，典型内存占用约为轨迹文件大小的2至3倍。核心C++类层级覆盖体系（System）、轨迹（Trajectory）、原子轨迹（Atom Trajectory）与分子对象，分析逻辑与数据存储解耦，便于扩展。 AMDAT的整套分析逻辑就建立在这四种数据对象之上： trajectory list：一组粒子随时间的轨迹，可静态（固定粒子集）或动态（成员随时间变化），是AMDAT的核心数据对象 neighbor list：基于距离截断或Voronoi剖分构建的邻居集合，是value list的特化子类 multibody list：把粒子组织成分子、官能团、粒子簇或动态相关结构，用于分析回转半径、取向相关、重取向动力学和string-like cooperative motion value list：每个粒子/分子在每帧的标量值，可来自轨迹文件、邻居计算或前序分析，支持阈值筛选、百分位选择、导出可视化输入脚本的基本结构是：先声明<system_type>、轨迹格式、文件名和<time_scheme>，再用<composition>描述物种、类型和分子组成，后面接选择与分析命令。典型命令包括create_list、rdf、msd、gyration_radius等。这种脚本更接近LAMMPS输入文件，而不是Python交互式分析。 AMDAT的思路可以理解为先把粒子整理成列表，再把列表交给不同分析命令。比如要看物种1的邻居壳层是否稳定，可以先创建物种1的trajectory list，再构建neighbor list，最后计算neighbor decorrelation function。中间对象能继续传给后续分析，这是它比一次性脚本更方便的地方。二、代表性体系与静态结构量 AMDAT在多个基准体系上演示工作流。图1到图3主要使用3D二元Lennard-Jones（binLJ）、2D二元Lennard-Jones（binLJ2D）、Kremer–Grest聚合物链（KG，$T^* = 0.3854$、弛豫时间约为$10^{6.88}\,\tau_\text{LJ}$、400条链、每条20个珠子，NPT系综）和30mer聚苯乙烯熔体（PS-30mer，OPLS力场、13978个原子，$T = 483\,\mathrm{K}$）。后面的指数采样示例使用PS-100mer，PNC体系则用于展示空间分辨和纳米复合材料场景。 3D/2D二元Lennard-Jones（binLJ/binLJ2D）是经典玻璃化研究基准体系，两种粒子类型（$N_1=6400$、$N_2=1600$）通过12-6 LJ势相互作用。物种1的$\epsilon$和$\sigma$均为1，物种2分别为0.50和0.88，交叉相互作用为$\epsilon_{12}=1.5$、$\sigma_{12}=0.8$，数密度约为1.17。binLJ是三维体系，binLJ2D则把相同组成和相互作用方案放到二维限制中，用来测试AMDAT处理降维体系的能力。 Kremer–Grest模型（1990年J. Chem. Phys.论文提出）是广泛使用的粗粒化珠-簧聚合物模型，用FENE键（有限延展非线性弹性势）连接相邻珠子，WCA势（Weeks-Chandler-Andersen纯排斥势）处理非键相互作用。这个模型捕捉聚合物动力学本质特征（Rouse运动、reptation、缠结）同时计算开销可控，是聚合物玻璃化研究的标准基准体系。图1：三个体系的静态结构表征。上行为径向分布函数$g(r)$，下行为静态结构因子$S(q)$。binLJ（左）和PS-30mer（右）的RDF按“全粒子/物种1/物种2/物种1-2对”分开绘制，颜色为蓝橙绿红四组曲线；PS-30mer中的物种分解对应碳、氢等原子类型。KG（中）只显示全粒子RDF，因为它是单组分粗粒化系统。$S(q)$三体系均按全粒子计算，展示实空间与倒空间信息的互补。 RDF细节反映了各体系局部结构的不同：binLJ的1-1对RDF首峰尖锐，KG的RDF呈现典型的玻璃态分裂第二峰，PS-30mer的RDF则因链内/链间混合而峰位更宽。$S(q)$从倒空间给出中程结构信息，适合与实空间RDF一起判断非晶体系的局部有序程度。三、动态物理量：多尺度动力学图2：四个体系的动力学性质总览。 MSD（均方位移）刻画扩散和亚扩散行为。图2中binLJ2D的MSD整体增长更慢，说明二维限制会显著改变弛豫行为；PS-30mer则展示了原子级聚合物体系中更宽的慢动力学时间窗口。 ISFS（self中间散射函数，$F_s(q, \tau)$）在对应近邻距离的波数$q^*$处计算，binLJ和PS-30mer能清晰看到$\alpha$-弛豫平台，KG在长延迟处尚未完全弛豫。 NGP（Non-Gaussian Parameter，非高斯参数，$\alpha_2(\tau)$）：量化位移分布偏离高斯形的程度。如果扩散接近简单布朗运动，$\alpha_2$接近0；在过冷液体中，一部分粒子被局部笼困住，另一部分粒子已经发生较大位移，位移分布就会变宽并偏离高斯形。$\alpha_2$的峰值通常对应动态不均匀性最强的时间尺度。 NDF（Neighbor Decorrelation Function，邻居去相关函数）：追踪局部邻居壳层在时间上的持久性。图中的NDF是保留下来的邻居数随时间延迟的变化；数值越高，说明初始邻居壳层保留得越久。它主要用于观察笼蔽效应、邻居交换和协同重排。颜色：蓝=all、橙=1、绿=2，按物种切片。 NGP与NDF的物理区别：NGP看位移分布的形状是否偏离高斯，关注“粒子跑了多远”；NDF看邻居环境是否还保留，关注“周围是谁变了”。两者从不同角度刻画过冷液体的动态不均匀性。如果MSD增长慢、ISFS衰减慢、NDF也保持较高数值，通常意味着粒子仍被局部邻居笼困住，结构重排尚未充分发生。四、自Van Hove函数与跳跃扩散除MSD和ISFS外，自Van Hove相关函数$G_s(r, \tau)$是另一种描述粒子扩散路径的常用工具。它统计在延迟$\tau$后粒子从初始位置移动距离$r$的概率分布，与MSD的均方位移视角互为补充：MSD给出平均距离，Van Hove给出整个分布形状，对识别跳跃扩散、协同运动等非高斯特征特别敏感。简单回顾一下：$G_s(r, \tau)$就是“一个粒子过了时间$\tau$之后跑了多远”的概率分布。它和中间散射函数$F_s(q, \tau)$是一对傅里叶变换：一个看实空间位移，一个看倒空间密度衰减。Van Hove函数比MSD更灵敏，因为MSD只看二阶矩，分布形状的信息会被平均掉。图3：KG体系的自Van Hove相关函数。图中以等时曲线形式展示，横轴为距离$r$，纵轴为概率密度，颜色从蓝到红表示延迟时间$\tau$增大（色标覆盖$10^0$到$10^6$的时间范围）。短延迟曲线集中在$r \approx 0$附近，说明粒子主要在局部笼内振动；长延迟曲线向较大$r$展开，说明有粒子逐渐离开原来的局部环境。这里不必硬解释成严格的双峰跳跃模型，更稳妥的读法是：Van Hove函数保留了位移分布形状，能看出MSD平均值掩盖掉的非高斯扩散特征。 Van Hove函数与MSD的关系：MSD是$G_s(r, \tau)$的二阶矩。二阶矩很有用，但它会把“多数粒子小幅振动”和“少数粒子大位移”混成一个平均数。对玻璃化体系来说，分布形状本身往往比平均值更有信息量。五、指数时间采样的优势 AMDAT默认采用指数时间采样，短时帧密集、长时帧稀疏，每个时间块内固定起始帧数，使不同延迟时间上的统计质量更均衡。PS-100mer示例中，线性轨迹和指数轨迹都使用771帧，但指数方案覆盖的对数时间跨度超过线性方案的两倍；长延迟处也不至于只剩极少数帧对。线性时间采样（Linear spacing）：在线性时间坐标上等间隔dump帧（例子中约每13529 ps一帧）。对时间延迟$\Delta t$，可用的帧对数是$S(\Delta t)=T-\Delta t/\Delta \tau$，其中$T$是总帧数，$\Delta \tau$是采样间隔。问题是可用帧对数会随延迟时间线性衰减。文中示例里，若想用单条线性轨迹覆盖$10^{-3}$到$10^5$ ps这8个数量级，就需要$10^8$帧，文件体积基本不可接受。指数时间采样（Exponential spacing）：每个对数时间块内保留固定数量的起始帧，块内延迟按指数递增。它的目的是让跨多个数量级的相关函数都有可用帧对。对玻璃态和聚合物慢弛豫来说，这比均匀dump更贴合问题本身。图7：线性与指数采样得到的MSD对比。主图是双对数坐标，插图是线性坐标。两条曲线在重叠时间区间内基本一致，说明指数采样没有改变MSD本身；差别在于，指数采样同时保留了更短延迟和更长延迟的信息。线性方案把771帧均匀铺开，短时区分辨率不足，长时区也很快缺少可用帧对；指数方案把帧数重新分配到对数时间上，更适合分析慢弛豫。简单地说：线性方案适合时间尺度不太宽的问题，指数方案适合跨很多数量级的慢弛豫问题。AMDAT把这种采样方式直接写进分析工作流里，省去了同时保存多条不同输出频率轨迹的麻烦。六、Per-particle可视化与邻居分析 AMDAT能把每个粒子的位移、邻居数、Voronoi邻居数等作为PDB的beta列或其他per-atom字段导出，直接用VMD或OVITO着色显示，对识别动态不均匀性、空间异质性和协同运动区域很有帮助。图4：三维二元Lennard-Jones快照的粒子属性着色。（a）原子类型：红=物种1、蓝=物种2，两种粒子在空间上基本均匀混合（b）指定时间内的位移：时间间隔为1211.42$\tau_\text{LJ}$，颜色从白（几乎没动）到深蓝（位移大），深蓝区域对应移动更明显的粒子（c）距离截断邻居数：截断距离为1.4$\sigma_\text{LJ}$，冷色=邻居少，暖色=邻居多，直观展示笼的紧密度分布（d）Voronoi剖分邻居数：与（c）整体相似但局部细节不同，对拓扑缺陷更敏感直观读图：图4真正展示的是AMDAT可以把动力学量和局部结构量写回同一帧坐标。这样读者不用只看全体系平均曲线，也能在空间上看到哪些区域更活跃、哪些区域配位更高或更低。图5：二维二元Lennard-Jones快照的粒子属性着色。（a）原子类型：红/蓝粒子在二维平面上的混合模式（b）位移：时间间隔为1211.42$\tau_\text{LJ}$，冷蓝=位移较小，暖色=位移较大，显示移动性在空间上并不均匀（c）六角序参量：2D xy平面中的6-fold hexatic order parameter，突出具有六角对称性的局部区域，这是二维体系中常用的局部结构判据（d）距离截断邻居数：截断距离为1.4$\sigma_\text{LJ}$，冷色=邻居少，暖色=邻居多（e）Voronoi剖分邻居数：与（d）整体相似但局部细节不同，对拓扑缺陷更敏感 2D体系为什么适合做展示：六角对称性在二维里特别容易定义，所以binLJ2D很适合演示“局部结构量如何写回到粒子上”。这并不等于体系已经发生晶化，而是说明AMDAT可以把局部序参量、位移和邻居数放在同一套可视化流程里比较。图6：两种邻居定义得到的邻居数直方图。蓝线代表距离截断，截断距离为1.4$\sigma_\text{LJ}$；橙线代表Voronoi剖分。两条曲线的均值（虚线）接近，但分布形状明显不同。Voronoi分布在右侧（高配位数）有更长尾，Distance分布在左侧（低配位数）有更明显的峰。这里的重点是：选哪种邻居定义会改变局部结构分析的结论，尤其在比较不同模拟或实验配位数时，不能只报一个“平均邻居数”。 Voronoi剖分把每个粒子周围的空间按“距谁最近”切成多面体，邻居数等价于多面体的面数。它的好处是不需要人为指定截断半径；缺点是对热涨落和远处小面也可能敏感。因此在非晶态体系里，距离截断和Voronoi剖分最好一起看。后面几张图就略了，详见原文。关键结论与批判性总结定位明确：AMDAT面向过冷液体、玻璃态、聚合物和复杂流体的下游轨迹分析。指数采样是最实用的特色：在不保存多条不同输出频率轨迹的前提下，长时相关函数（MSD、ISFS等）的可分析时间窗更宽，缓解了线性采样在长延迟处可用帧对过少的问题。模块化设计方便扩展：四种核心列表对象让“按物种分层”、“按时段切片”、“按邻居环境聚类”等操作都能在不改核心代码的前提下完成，对有定制分析需求的研究者很友好。局限与注意事项：目前GROMACS xtc支持有限，LAMMPS dump和xyz格式更顺手；输入文件需要写脚本配置，有一定学习成本。生态衔接：AMDAT输出纯文本或可视化友好的modified trajectory文件，后处理主要交给Python、Matlab、VMD或OVITO。作者计划的改进包括更完整的开发者文档、可导入的Python接口以及多线程分析支持。批判性看法：AMDAT的优势很清楚，但也很窄。它适合玻璃态、聚合物和复杂流体的长时标统计；如果研究问题主要是蛋白质口袋、自由能面或反应路径，通用Python分析生态通常更方便。典型应用场景 AMDAT已经支撑的研究场景覆盖了非晶态物理和软物质化学的多个核心问题：玻璃化转变与过冷液体动力学：MSD、ISFS、NGP是描述体系从液态向玻璃态转变的常用三件套，指数采样让这几个量在接近$\tau_\alpha$时仍然有足够的统计量动态不均匀性研究（DH）：NGP峰值、4-point相关函数、协同运动区域识别都依赖对大量粒子的局域动力学进行切片——AMDAT的multibody list和value list抽象正是为这类分析设计聚合物的链动力学：Rouse/reptation模型预测的MSD标度律、链内/链间RDF的物种分辨、链段取向相关——这些是PS-30mer演示案例的延伸应用非晶态结构的拓扑表征：Voronoi剖分 + 邻居分布直方图（图6）是识别局部结构差异（如不同邻居判定标准给出的配位数分布偏差）的有效途径 per-particle属性的高通量计算；把每个粒子的位移、邻居数等批量导出为PDB的beta列，可在VMD中快速查看整个体系的空间分布与同类工具的对比工具主要设计目标时间采样邻居定义强项 AMDAT 过冷液体/玻璃态/聚合物指数采样（默认）距离截断、Voronoi 长时相关函数、动态不均匀性 Freud 局部结构/相关函数用户自定义距离、Voronoi、固体角高性能结构分析、并行 LAMMPS（自带） MD引擎 + in-situ分析用户自定义距离截断边跑边算、节省IO 简单说：MDAnalysis和OVITO覆盖面更广，Freud偏向高性能结构分析，AMDAT的特色在长时标动力学分析。指数采样和模块化抽象，是它区别于通用工具的核心。

Molecular Dynamics · 2026-06-06

QuantumPDB：从蛋白质结构到量子化学模型的高通量自动化之路

QuantumPDB：从蛋白质结构到量子化学模型的高通量自动化之路本文信息标题：QuantumPDB：从蛋白质结构到量子化学模型的高通量自动化工作流作者：David W. Kastner、Weiliang Luo、Wilson Ho、Clorice R. Reinhardt、Allison Keys、Heather J. Kulik 期刊：Journal of Chemical Information and Modeling 发表时间：2026年5月5日 DOI：https://doi.org/10.1021/acs.jcim.5c03064 单位：美国麻省理工学院化学工程系、化学系、生物工程系和计算与系统生物学项目，Kulik实验室引用格式：Kastner D W, Luo W, Ho W, Reinhardt C R, Keys A, Kulik H J. QuantumPDB: A Workflow for High-Throughput Quantum Cluster Model Generation from Protein Structures. J. Chem. Inf. Model. 2026, 66: 6011−6026. https://doi.org/10.1021/acs.jcim.5c03064 代码与数据：QuantumPDB包开源可用（GitHub：https://github.com/davidkastner/quantumPDB）；复现数据见Supporting Information和Zenodo仓库摘要酶的计算建模能提供催化过程的分子层面信息，但从实验结构出发准备量子力学（QM）计算，是高通量研究的主要瓶颈。现有自动化工具虽然能加速这一过程，却可能难以泛化到不同活性位点的化学组成和几何结构。本文提出QuantumPDB，这是一个Python包，可从原始蛋白质结构直接自动生成围绕活性中心的分层配位/相互作用球层，用于构建QM簇模型。该工作流整合了结构清理、质子化状态分配和QM计算设置，并使用由Voronoi镶嵌得到的接触式相互作用球层构建化学上有意义的模型，从而表征复杂活性位点几何。本文从PDB策展了989个holo-enzyme数据集，并对其中842个酶生成的1,673个酶簇模型进行QM计算。计算性质分析表明，DFT模拟中的酶环境会一致地将底物电荷调向中性，并降低底物偶极矩；即使活性位点主要由中性残基组成，这一现象也普遍存在。图1：酶学高通量QM研究的自动化工作流步骤：1）结构准备，2）QM就绪结构模型生成，3）QM计算执行，4）提取计算的QM性质，5）编译QM性质数据集。核心结论、创新点自动化进展：QuantumPDB实现了从PDB结构到QM簇模型的高度自动化流程，显著降低手工准备的瓶颈基于Voronoi镶嵌的接触式球层划分，克服了距离截断法的球形假设局限，更合理地描述非球形活性位点 Dummy原子正则化：在低密度区域填充网格dummy原子，防止Voronoi分割的各向异性，确保边界规则灵活中心定义：支持单原子、多残基复合体、特定残基组合等多种中心选择模式大规模验证：从989个holo-enzyme中，对842个酶的1,673个簇模型进行DFT计算，揭示酶环境对底物性质的调制效应开源设计：内置支持TeraChem和ORCA作业生成与提交，工作流也可绕过内置提交模块接入用户自己的计算调度方式通用平台：兼容QM/QM′、ONIOM等多种多尺度方法，为数据驱动的蛋白研究提供稳健平台背景：从结构到量子模型的挑战酶的电子结构特性涉及极化、电荷转移、局部电场和构象动力学，需要量子力学方法才能准确描述。但从晶体结构到QM计算的准备过程并不容易：结构缺陷：常有未解析区域、晶体学假象、非蛋白组分（辅因子、配体、核酸、糖、离子、水）氢原子缺失：X-ray晶体学通常不提供氢原子位置金属酶复杂性：金属中心的氧化态、自旋态和配位几何对电子环境敏感手工准备瓶颈：传统流程依赖专家经验，难以规模化现有自动化工具能加速此过程，但难以适应不同活性位点的化学和几何多样性。研究内容 QuantumPDB的五模块工作流 QuantumPDB采用模块化设计，五个子包依次处理结构到计算的全流程：图2：QuantumPDB包的分层工作流。五个顺序模块及其主要功能。（1）qp.structure：获取PDB文件并建模缺失原子和残基；（2）qp.protonate：分配质子化状态并评估原子占有率；（3）qp.cluster：使用Voronoi镶嵌生成相互作用球层；（4）qp.manager：创建QM输入文件并提交计算；（5）qp.analysis：对QM输出执行部分电荷和偶极矩分析。核心创新：Voronoi镶嵌驱动的簇构建这是QuantumPDB的核心创新。传统方法使用球形距离截断定义簇边界，比如“只保留距离中心5 Å以内的所有残基”，但这假设活性位点近似球形，而实际上很多活性位点像裂缝、峡谷一样并不规则。QuantumPDB采用Voronoi镶嵌建立原子接触网络，克服了这一球形假设局限。 Voronoi镶嵌原理想象将整个空间切割成许多个小区域，每个区域都属于距离某个原子最近的所有点。这些区域叫做Voronoi细胞。两个相邻细胞之间的公共边界叫做ridge。关键洞察是：如果两个原子共享边界，说明它们在空间上直接接触。 Voronoi镶嵌：将空间划分为Voronoi细胞，每个细胞包含距离某原子最近的所有点。相邻细胞的共享边界（ridges）定义了原子间的直接接触。 Dummy原子正则化在配体结合口袋、蛋白-蛋白界面等低密度区域（原子比较稀疏的地方），Voronoi细胞会变得很长很细，很不规则。这会导致后续的簇划分也变得不规则。 QuantumPDB的解决方案：在蛋白周围3D网格上放置dummy原子（虚拟原子），提高镶嵌分辨率，让Voronoi细胞变得致密、规则。基于接触的球层构建 QuantumPDB不是按距离，而是按“谁和谁有直接接触”来分层：计算Voronoi镶嵌：使用SciPy库计算所有原子的Voronoi细胞构建接触网络：从共享边界的细胞识别直接接触的原子对，建立原子级邻接表基于接触划分球层：第一球层包含与中心直接接触的原子，第二球层包含与第一球层直接接触的原子，以此类推迭代扩展：通过Voronoi接触网络构建连续、非重叠的球层完整簇构建流程中心定位：用户通过center_residues参数指定活性位点中心 Voronoi分割：voronoi函数计算所有原子的Voronoi镶嵌，构建原子级邻接表 Dummy原子填充：fill_dummy在蛋白周围3D网格上放置dummy原子，正则化低密度区域的Voronoi细胞，防止边界各向异性球层迭代：get_next_neighbors基于Voronoi接触网络构建连续、非重叠的球层簇修剪：若指定max_atom_count，prune_atoms系统移除最远残基直到原子数低于阈值边界加帽：cap_chains用氢原子或N-甲基乙酰胺（NME）/乙酰基（ACE）封闭切断的肽键图4：TauD（PDB ID: 1OS7）的接触式簇模型，由qp.cluster子包生成。第一球层用棍状模型显示（灰色），第二球层和第三球层分别用蓝色和紫色表面表示。 Voronoi镶嵌的优势：几何自适应：基于实际原子接触网络，自然适应非球形活性位点化学意义明确：球层定义基于直接相互作用，而非任意距离可正则化：dummy原子填充确保低密度区域的鲁棒性跨链适用：算法适用于多肽链，寡聚酶界面处的残基可正确纳入大规模验证：989个酶的DFT计算为验证QuantumPDB的通用性和鲁棒性，作者构建了一个高质量的holo-酶数据集（图8）：图8：holo-酶数据集的自动策展工作流。（左）漏斗图展示了对PDB结构应用的顺序过滤流程，罗马数字（I−VI）表示每个阶段，左侧显示每步的PDB结构数量；（中）饼图显示从PDB初步提取的所有酶的EC分类组成，与（右）筛选反应参与者后的最终酶集合的EC分布对比。 holo-enzyme数据集构建流程步骤数据来源/过滤标准结果 1 2024年8月6日通过PDB REST API检索7个主要EC类别 101,633个蛋白结构 2 UniProt注释匹配保留100,300个可识别蛋白及其底物注释的结构 3 排除apo结构、仅含缓冲液/离子/金属/常见辅因子的HETATM条目 61,623个配体结合结构 4 仅保留X-ray结构、分辨率小于3.0 Å、带DOI，并排除异常大体系 57,580个高质量候选结构 5 用ChEBI和Rhea核对晶体结构配体是否为反应参与者 989个holo-enzyme，覆盖除EC 7外的6个主要EC类别 DFT计算规模项目数值/设置 QM簇模型总数 1,673个多球层模型（来自842个酶） DFT方法 GPU加速的ωPBEh-D3(BJ)/LACVP*单点能计算嵌入方案第一、第二相互作用球层作为QM区，外围加入MM点电荷嵌入对照环境底物单独置于隐式水溶剂，介电常数$\varepsilon = 80$ 分析性质 Multiwfn计算实空间部分电荷，qp.analysis计算底物片段偶极矩核心发现：酶环境的调制效应 DFT计算的主要发现观察现象定量结果物理意义电荷被削弱 381/1,673个模型（23.1%）中底物电荷与形式电荷偏差小于0.1 e，但大多数偏差更大；整体趋势是电荷被削弱，更接近中性酶环境通过极化和电荷转移改变底物电子结构偶极矩减小酶环境中底物偶极矩比隐式溶剂中一致降低酶通过具体残基排布调节电荷分布，不是简单均匀介质普遍存在主要由中性残基组成的活性位点也显示电荷转移累积静电势来自三维空间排布，不只是少数带电残基图9：酶与底物之间的电荷转移。（左）底物在隐式溶剂中的电荷与在酶活性位点中的电荷奇偶图；黑色实线表示完全一致，灰色虚线表示最佳拟合线。（中）例A为PDB ID: 5A60活性位点，展示从底物发生的电荷转移；（右）例B为PDB ID: 6VI6活性位点，同样展示从底物发生的电荷转移。在例A和例B中，第一相互作用球层显示为灰色表面，关键相互作用残基显示为棍状模型，第二球层显示为蓝色表面。氢键为黄色虚线，配位键为紫色虚线。原子颜色编码：蛋白碳为灰色，底物碳为橙色，氮为蓝色，氧为红色，硫为黄色，磷为橙色，铁为深橙色，镁为绿色，氢为白色。图10：活性位点组成与底物电荷转移的关系。（左）所有球层的底物电荷差与FNR（中性残基分数）的散点图。点颜色表示活性位点残基的平均Kyte-Doolittle疏水性，蓝色更疏水，红色更亲水。灰色虚线标记FNR = 0.8和电荷差 = 0.5作为通用截止值。两个例子圈出并标记：A（PDB ID: 3VSD）和B（PDB ID: 5MBX）。（中）3VSD和（右）5MBX的活性位点，底物显示为棍状模型，蛋白表面按每个残基的Hirshfeld部分电荷之和着色，颜色尺度为-1红色、0白色、+1蓝色。原子颜色编码：碳为灰色，氮为蓝色，氧为红色，硫为黄色，磷为橙色，铁为深橙色，镁为绿色，氢为白色。这组结果有意思：中性和疏水并不等于没有电子效应。3VSD和5MBX这类体系中，活性位点表面整体以中性残基为主，只有少量局部区域带有明显Hirshfeld电荷，但底物仍发生可观的电子密度重分布。起作用的不只是某几个带电残基，而是活性位点三维排布形成的累积静电势。偶极矩分析给出了另一个独立维度。底物在酶环境中的偶极矩比在隐式溶剂中一致降低，但这一变化与电荷差没有明显相关性（Pearson $r = 0.02$）。不同酶环境可能分别调节底物的净电荷转移和电荷空间分布，二者并不等同。关键结论与批判性总结潜在影响 QuantumPDB通过自动化QM簇模型构建，为大规模蛋白质研究提供了稳健平台。对989个酶的DFT计算揭示了酶环境对底物电子结构的调制效应，为理解酶催化机理提供了定量视角。主要局限金属电子态仍需用户指定：金属氧化态和自旋态无法由结构唯一决定，需要用户在CSV中提供结构准备有适用边界：Modeller不能补全底物或非标准辅因子中的缺失原子，Protoss识别不了的非标准残基需要启发式修正静态结构限制：基于晶体结构单点分析，不一定处于真正的机制构象溶剂与反应坐标简化：计算为单点能性质分析，不是完整反应路径；原始PDB中的水会被纳入球层，但工作流不会自动补水未来方向集成MD模拟：结合分子动力学采样或多构象筛选，考虑构象柔性机器学习增强：利用ML模型预测金属中心电子结构，减少用户输入显式水与反应路径：在关键体系中加入显式水、构象采样和反应路径计算批判性总结 QuantumPDB成功解决了从PDB结构到QM计算的关键瓶颈。Voronoi镶嵌驱动的簇构建和dummy原子正则化是对传统球形截断法的改进，特别适合处理复杂、非球形的活性位点。大规模DFT计算验证了酶环境对底物电荷和偶极矩的调制效应，为理解酶催化的静电调控机制提供了定量支持。随着与MD模拟、机器学习和显式溶剂模型的结合，QuantumPDB有望成为数据驱动酶学研究的核心平台。更详细的技术细节、方法说明和完整结果分析请参阅附录文档。

Molecular Dynamics · 2026-05-27

QuantumPDB技术附录

QuantumPDB技术附录 QuantumPDB完整模块架构 1. qp.structure：结构修复与标准化功能：从本地或PDB服务器获取结构文件，执行初始结构修复图3：qp.structure和qp.protonate子包的架构概述。绿色和蓝色分别表示qp.structure和qp.protonate模块，橙色框表示函数，黑色圆圈表示结构文件输入输出，黑色方框表示其他非结构文件。关键特性：缺失残基建模：get_residues函数识别缺失残基和重原子，基于序列信息重建结构补全：用Modeller补全缺失残基、loop和重原子；氢原子添加主要由后续qp.protonate中的Protoss完成非标准残基处理：保留HETATM记录中的辅因子、配体等对于金属酶，工作流采用启发式修正策略：重新定向组氨酸咪唑环、为Protoss不识别的非标准残基补氢，并去质子化金属配位残基。 2. qp.protonate：质子化状态分配功能：用Protoss添加氢原子、枚举互变异构体并优化氢键网络，同时处理原子占有率和构象冲突核心算法： Protoss反馈循环：调用Protoss添加氢原子并分配质子化状态；若Protoss因空间冲突删除残基，QuantumPDB会回到Modeller步骤删除冲突残基、重建并重新提交。部分占有率处理：clean_occupancy不会做坐标加权平均，而是根据中心残基优先、标准氨基酸优先、占有率更高和解析原子更多等规则，选择一套自洽构象。金属中心特殊处理：adjust_activesites会重定向可能误配的组氨酸咪唑环、为Protoss不识别的非标准残基补氢，并去质子化金属配位残基；可变氧化态和自旋态仍需用户输入。输入要求：用户需提供可变金属的氧化态和体系自旋多重度，因为这些电子性质无法仅从结构数据唯一确定。 3. qp.cluster：基于Voronoi的簇构建 Dummy原子正则化的作用：在配体结合口袋、蛋白-蛋白界面或溶剂暴露表面等低密度区域，Voronoi细胞几何形状会因某些方向缺乏邻近原子而变得高度各向异性和拉长，导致后续簇模型边界不规则。fill_dummy通过在蛋白周围3D网格上均匀放置dummy原子，提高镶嵌分辨率，确保形成致密、各向同性、几何规则的Voronoi细胞。 4. qp.manager：QM计算管理功能：为TeraChem和ORCA创建输入文件、提交计算并监控作业状态；如果用户已有自己的调度接口，也可以关闭内置作业创建或提交步骤图5：qp.cluster和qp.manager子包的架构概述。紫色和灰色分别表示qp.cluster和qp.manager模块，橙色框表示函数，黑色圆圈表示结构文件输入输出，黑色方框表示其他非结构文件。支持的软件包： GPU加速：TeraChem CPU计算：ORCA 作业调度：SLURM和SGE；其他量子化学程序可通过绕过内置qp.manager或扩展模板接入计算设置：用户可配置项：方法、基组、介电常数等由YAML和模板写入QM输入文件。本文大规模算例：使用GPU加速的ωPBEh-D3(BJ)/LACVP*单点能计算，而不是B3LYP-D3/def2-SVP。嵌入方案：可生成MM点电荷文件，默认从ff14SB兼容字典或用户JSON读取电荷；非标准残基、糖和辅因子若不在字典中会被排除并给出警告。点电荷范围：默认保留QM簇质心20.0 Å内的MM残基电荷，并移除距离QM原子0.5 Å内的MM原子以避免重复计数。 5. qp.analysis：电子性质分析功能：从QM输出中提取和计算电子性质关键分析：部分电荷：Hirshfeld、Mulliken、CM5等Multiwfn支持的电荷方案偶极矩：底物在酶环境和孤立状态下的偶极矩对比电荷转移：酶-底物复合物中的电荷流动比较分析：酶环境 vs 隐式水溶剂对底物电子结构的影响灵活的中心定义策略 QuantumPDB支持三种中心选择模式，适应不同化学场景：高度特异性：[残基名]_[链ID][残基编号]格式，指定精确的残基实例，例如SIN_A200 通用类型：仅基于残基类型（如FE、CU），适用于多实例扫描 HETATM记录：限于非标准残基（底物、辅因子），避免为每个氨基酸生成簇复杂场景处理：多金属中心：merge_cutoff_distance参数将多个金属原子合并为单一中心多残基配体：可将整个寡糖、多肽药物定义为簇中心翻译后修饰：GFP发色团（Ser65-Tyr66-Gly67三聚体）可整体定义为中心图7：QuantumPDB生成的多残基中心系统QM簇模型。（左上）C型凝集素Langerin（CD207，PDB ID: 3P5F），钙离子和结合的甘露寡糖合并为中心；（右上）环孢素A结合的亲环蛋白（PDB ID: 1CWA），整个11残基环肽定义为中心；（左下）绿色荧光蛋白（GFP，PDB ID: 1EMA），由Ser65-Tyr66-Gly67形成的翻译后修饰发色团CRO定义为中心；（右下）木聚糖酶XynII（PDB ID: 4HK8），多糖底物中两个中心木糖单元定义为中心，使模型聚焦在待切割糖苷键附近。金属酶的自动处理金属酶是QM建模的难点和重点。QuantumPDB针对常见金属酶类型内置启发式修正规则（图6）：双核金属中心：甲烷单加氧酶（MMO，PDB ID: 1FYZ）的两个铁原子可通过merge_cutoff_distance合并为单一中心长程双铜中心：肽基甘氨酸α-羟化单加氧酶（PHM，PDB ID: 1PHM）的两个远距离铜原子可合并血红素复合物：氧合肌红蛋白（PDB ID: 1MBO）的铁-卟啉-O₂和远端组氨酸可合并为中心。腈水合酶：NHase（PDB ID: 3A8O）的铁中心由主链酰胺、非标准CSO/CSD残基等配位，adjust_activesites会自动处理3.0 Å内金属配位主链氮的去质子化。图6：QuantumPDB生成的代表性金属酶QM簇模型。（左上）甲烷单加氧酶（MMO，PDB ID: 1FYZ）的双铁中心通过合并两个铁原子定义；（右上）肽基甘氨酸α-羟化单加氧酶（PHM，PDB ID: 1PHM）的长程双铜中心通过合并两个铜原子定义；（左下）氧合肌红蛋白（PDB ID: 1MBO）的铁、卟啉和结合的O₂分子定义为中心；（右下）腈水合酶（NHase，PDB ID: 3A8O）的铁中心及其主链酰胺和非标准CSO/CSD配位环境。第一、第二、第三球层分别为灰色、浅蓝色和紫色；中心原子外描黑框，配位键用紫色虚线表示。技术挑战与解决方案挑战1：部分占有率处理晶体结构中常有alternate conformation（AltLoc），即同一残基有多个构象选项，各带有占有率。 QuantumPDB策略：单一构象选择：在质子化之前必须选定一套自洽坐标，而不是保留多构象或做占有率加权平均。优先级规则：优先保留用户指定的中心活性位点残基，其次是标准氨基酸和其他残基类型；同一优先级下选择平均占有率更高、解析原子更多的构象。冲突处理：对有alternate conformation的残基建立队列，逐个检查与邻近残基的重叠，并保留优先级更高的一方。挑战2：金属中心电子结构推断金属的氧化态和自旋态无法仅从结构确定。 QuantumPDB策略：用户输入：要求用户在CSV中提供可变金属的氧化态和体系自旋多重度。自动处理范围：ligand_prop可处理简单离子和NO、O₂等预定义自由基物种，但不自动判定可变金属的氧化态和自旋态。结构启发式修正：对金属配位组氨酸、半胱氨酸、酪氨酸、非标准CSO/CSD残基和主链酰胺执行几何与质子化修正。挑战3：簇边界加帽切断的共价键需用氢原子或保护基封闭，避免悬空键。 QuantumPDB策略：肽键切断：用氢原子（N-H）或N-甲基乙酰胺/乙酰基封闭 C-N键：build_hydrogen（氢帽）或build_heavy（NME/ACE帽）金属-配体键：通常保留在簇内，不切断数据集详细构建流程为验证QuantumPDB的通用性和鲁棒性，作者构建了一个高质量的holo-酶数据集：数据集构建流程： PDB检索：2024年8月6日通过PDB REST API检索7个主要EC类别，得到101,633个蛋白结构。 UniProt注释：成功识别100,300个结构对应的蛋白及底物注释。结构质量过滤：排除疑似apo结构，仅保留X-ray结构、分辨率小于3.0 Å、带DOI，并去除原子数异常大的体系，得到57,580个候选结构。 Rhea/ChEBI底物核对：用ChEBI标识符和Rhea反应参与者确认晶体结构中配体是否为原生反应底物。最终数据集：989个holo-enzyme，覆盖6个主要EC类别（translocases，EC 7除外）。 DFT计算规模： 1,673个多球层QM簇模型（来自842个酶）计算设置：ωPBEh-D3(BJ)/LACVP* DFT单点能计算，QM区包含第一和第二相互作用球层，并加入MM点电荷嵌入。对照体系：底物单独置于介电常数$\varepsilon = 80$的隐式水溶剂中。分析性质：Multiwfn实空间部分电荷、底物片段偶极矩和酶-底物电荷转移量。

Molecular Dynamics · 2026-05-27

固定电荷模型为何难以模拟高价金属离子？关键在于引入动态极化效应

固定电荷模型为何难以模拟高价金属离子？关键在于引入动态极化效应本文信息标题：A Polarizable Cationic Dummy Metal Ion Model 作者：Ali Rahnamoun, Kurt A. O’Hearn, Mehmet Cagri Kaymak, Zhen Li, Kenneth M. Merz, Jr., Hasan Metin Aktulga 发表期刊：The Journal of Physical Chemistry Letters 发表时间：2022年6月8日 DOI：https://doi.org/10.1021/acs.jpclett.2c01279 单位：Michigan State University, USA 引用格式：Rahnamoun, A.; O’Hearn, K. A.; Kaymak, M. C.; Li, Z.; Merz, K. M., Jr.; Aktulga, H. M. (2022). A Polarizable Cationic Dummy Metal Ion Model. J. Phys. Chem. Lett., 13, 5334-5340. 全局参考（机制来源） Rahnamoun, A.; Kaymak, M. C.; Manathunga, M.; Götz, A. W.; Duin, A. C. T.; Merz, K. M., Jr.; Aktulga, H. M. (2020). ReaxFF/AMBER—A Framework for Hybrid Reactive/Nonreactive Force Field Molecular Dynamics Simulations. J. Chem. Theory Comput., 16, 7645-7654. https://doi.org/10.1021/acs.jctc.0c00874 摘要本研究提出了一种基于原始阳离子虚拟原子（Cationic Dummy Atom，CDA）模型的局部极化多位点模型，用于凝聚相中离子的分子动力学模拟。极化效应通过电负性均衡方法（Electronegativity Equalization Method，EEM）引入，使金属离子及其虚拟原子上的电荷能够随环境变化重新分配。该模型加入了显式极化和离子诱导相互作用，并且可以与非极化水模型配合；从方法设计上，它也可以扩展到更一般的极化环境。它是在原始固定电荷CDA模型上的扩展，目标是让电荷分布跟着局部溶剂结构变化。本文以$\ce{Zn^{2+}}$、$\ce{Al^{3+}}$和$\ce{Zr^{4+}}$为例，优化了八面体配位CDA的Lennard-Jones和极化参数，用来复现实验中的水合自由能、离子-氧距离和配位数。这个框架尤其适合处理局部极化响应很强的高价金属离子体系。核心结论固定电荷模型的局限性：传统CDA模型无法适应局部溶剂结构，电荷分布固定不变动态极化机制：CDApol通过EEM方法实现电荷动态平衡，中心离子和6个虚拟原子上的电荷可响应环境变化计算成本可控：相比非极化CDA模型，CDApol仅增加35%计算时间，但显著提升准确性同时兼顾三性质：CDApol在本文测试的标准12-6 LJ框架下，同时把HFE、IOD和CN拉回到接近实验的范围适用高电荷离子：对$\ce{Zn^{2+}}$、$\ce{Al^{3+}}$、$\ce{Zr^{4+}}$等高价离子效果显著，最终结果整体接近实验值关键科学问题本研究旨在解决以下核心问题：固定电荷CDA模型的根本缺陷：电荷分布无法适应局部溶剂结构，导致高价离子的水合自由能（HFE）、离子-氧距离（IOD）和配位数（CN）无法同时准确复现极化效应的引入方式：如何在保持计算效率的前提下，将动态极化效应引入CDA框架？参数化策略：如何针对不同价态的金属离子（+2、+3、+4）优化EEM和LJ参数，实现高准确性？创新点本研究的主要创新包括：局部极化多位点模型：在CDA框架中引入EEM动态极化，实现电荷分布的实时响应双步参数化策略：先优化EEM参数复现DFT电荷分布，再扫描LJ参数复现实验HFE/IOD/CN 同时兼顾三性质：在标准12-6 LJ模型框架下，同时把HFE、IOD和CN调到接近实验的范围计算效率优化：通过AMBER-PuReMD接口实现极化效应，计算成本仅增加35% 背景金属离子模拟的挑战金属离子在生物化学和材料科学中扮演重要角色。约三分之一的蛋白质含有金属离子，它们通过与周围氨基酸形成复合物，在生物系统中发挥结构、电子转移和催化等关键功能。使用标准经典模拟对包含过渡金属的体系进行建模，是最具挑战性的任务之一。过渡金属的电荷不是恒定的，而是受氧化态、配体类型、配位几何等多种因素影响。当金属离子溶解在水中时，周围水分子会改变它的电荷分布，形成离子诱导偶极效应。这种效应在高价离子（如$\ce{Al^{3+}}$、$\ce{Zr^{4+}}$）中更明显，因为它们带着更多正电荷，对周围溶剂的极化更强。方法优点局限性 12-6 LJ非键模型简单、计算高效固定电荷无法响应环境变化，无法同时复现HFE和IOD 12-6-4 LJ模型添加$C_4/r^4$诱导偶极项需针对特定配体调参，可迁移性有限 Drude振子模型显式极化，物理严格参数化复杂、计算成本高固定电荷CDA模型虚拟位点模拟配位，避免直接金属-配体相互作用电荷分布固定，无法适应局部溶剂结构 AMOEBA极化力场原子多极矩+极化，高精度计算成本极高，倾向于高估结合强度固定电荷CDA模型虽然在避免直接金属-配体相互作用方面有优势，但其根本缺陷在于电荷分布无法适应局部溶剂结构。当高价离子从真空进入水溶液时，周围水分子会重新排列，产生强极化场，但固定电荷模型无法捕捉这一动态过程。 CDA模型的发展历程：从固定电荷到动态极化阳离子虚拟原子（CDA）模型由Åqvist和Warshel于1990年首次提出，其核心思想是通过电荷离域化减弱金属中心的过度排斥。该模型在金属中心周围放置6个带部分正电荷的虚拟原子（八面体几何），每个虚拟原子电荷为+δ，中心离子电荷为n-6δ，总电荷保持为n+。这种设计巧妙地弱化了过于集中的金属正电荷，使模型能够在不额外引入金属-配体键和角约束的情况下维持稳定的配位几何。经过二十余年的发展，CDA模型已成功应用于多种金属体系。Duarte等人（J. Phys. Chem. B 2014, 118, 4351-4362）针对八面体配位的7种二价离子（$\ce{Mn^{2+}}$、$\ce{Zn^{2+}}$、$\ce{Mg^{2+}}$、$\ce{Ca^{2+}}$、$\ce{Ni^{2+}}$、$\ce{Co^{2+}}$、$\ce{Fe^{2+}}$）开发了力场无关的CDA参数，这是该领域的重要里程碑。图1：Duarte et al. 2014的CDA模型示意图。（A）虚拟原子模型：中心金属离子周围放置6个虚拟位点，总电荷保持为$n+$，整体采用八面体拓扑。（B）人类乙二醛酶 I 活性位点结构，显示$\ce{Zn^{2+}}$被dummy模型替代后的局部配位环境。原文图注写明中心原子与dummy原子分别以灰色与白色表示。模型设计的物理原理 Duarte等人的CDA模型遵循电荷离域化思想，将金属离子的正电荷分散到7个位点（1个中心离子+6个虚拟原子）。每个虚拟原子携带部分正电荷δ，中心离子电荷为$Q_\text{metal} - 6\delta$，总电荷保持为金属离子的形式电荷（+2）。这种设计带来两个关键优势：避免过度排斥：电荷分散使金属-配体相互作用不会因距离过近而产生非物理的强排斥约束边界清晰：dummy复合体内部使用较大的键/角力常数维持几何骨架，但金属与外部配体之间不加成键约束，因此配位环境仍可通过非键相互作用自发重排小编锐评：也是一种权衡吧，真实配位肯定是配体和金属有电荷重分配的同时复现M-O距离和溶剂化自由能图2：7种二价金属离子的径向分布函数和配位数（Duarte et al. 2014）。彩色实线表示金属-氧径向分布函数$g_{\ce{M^{2+}}-\ce{O}}(r)$，黑色虚线表示配位数$n(r)$。7种离子都显示出清晰的第一溶剂化峰，峰位在2.0-2.5 Å范围，对应直接与金属离子配位的水分子氧原子。通过优化Lennard-Jones参数（$\epsilon$和$\sigma$）和虚拟原子电荷δ，Duarte等人把HFE、M-O距离和CN都压到了实验值附近。流程可以压成四步：先定骨架：沿用并微调已有的八面体dummy几何，文中给出了代表性的内部参数（如$M-D$键$K_b=800.0$、$r_0=0.900$ Å；$D_i-M-D_i$角$K_\theta=250.0$、$\theta_0=180.0^\circ$），先把配位框架稳定下来。再调少数关键参量：主要改金属中心的 $A_i/B_i$ 和中心/虚拟原子之间的电荷分配，dummy 间的键和角保持很大力常数。每轮都拿实验量验收：重点看 HFE、M-O 距离和 CN，参数不是一次拍定，而是逐轮往实验值靠。自由能用 FEP 算：从 $Q=0$ 到 $n+$ 分成 $n$ 个中间态逐步推进，再加截断和标准态修正；同时在 SPC 和 TIP3P 两种水模型里检查可迁移性。这条路线的顺序很固定：先固定几何，再按实验量逐步调整。金属离子 $\Delta G_\text{hyd}^\text{calc}$ (kcal/mol) $\Delta G_\text{hyd}^\text{exp}$ (kcal/mol) 误差 $r_\text{M-O}^\text{calc}$ (Å) $r_\text{M-O}^\text{exp}$ (Å) CN $\ce{Mg^{2+}}$ -445.4 -445.5 0.1% 2.09 2.09-2.11 6.0 $\ce{Ca^{2+}}$ -380.0 -379.8 -0.1% 2.42 2.39-2.46 7.0 $\ce{Mn^{2+}}$ -436.0 -435.5 -0.1% 2.19 2.18-2.20 6.0 $\ce{Fe^{2+}}$ -438.0 -439.0 0.2% 2.14 2.10-2.16 6.0 $\ce{Co^{2+}}$ -456.0 -456.5 0.1% 2.10 2.07-2.12 6.0 $\ce{Ni^{2+}}$ -465.0 -465.0 0.0% 2.07 2.04-2.10 6.0 $\ce{Zn^{2+}}$ -453.0 -453.5 0.1% 2.08 2.00-2.10 6.0 HFE精度：所有7种离子的水合自由能计算值与实验值误差小于0.2%，平均误差仅0.1%（小编锐评：拟合目标能达到是必须的。。） IOD精度：金属-氧距离误差小于0.05 Å，完美复现实验晶体学数据配位数预测：除$\ce{Ca^{2+}}$为7配位外，其他6种离子均为6配位，与实验一致首峰高度：RDF第一峰高度在5-12之间，表明稳定的八面体配位几何力场无关性和酶体系验证 Duarte等人特别强调了参数的力场无关性。CDA参数仅依赖Coulomb势和Lennard-Jones势，不涉及特定的力场函数形式。因此，同一套参数可以无缝迁移到AMBER、CHARMM、OPLS等不同力场中，无需重新参数化。在人类乙二醛酶I（glyoxalase I）的实际应用中，$\ce{Zn^{2+}}$-CDA模型在20 ns MD模拟中保持了完美的八面体配位，与两个谷氨酸（Glu99和Glu172）、两个组氨酸（His126和His195）以及一个水分子形成稳定复合物。这证明了CDA参数在真实蛋白环境中的可迁移性和稳定性。图4：E. coli $\ce{Ni^{2+}}$-GlxI与人类$\ce{Zn^{2+}}$-GlxI的结构叠加对比。蓝色为E. coli $\ce{Ni^{2+}}$-GlxI，黄色为人类$\ce{Zn^{2+}}$-GlxI。尽管金属中心不同（$\ce{Ni^{2+}}$ vs $\ce{Zn^{2+}}$），两者整体折叠和活性位点结构高度保守。图5：催化金属中心的配位球结构。（A）E. coli $\ce{Ni^{2+}}$-GlxI的活性位点，（B）人类$\ce{Zn^{2+}}$-GlxI的活性位点。图中中心原子与dummy原子分别以蓝/黄与银色表示；周围配体被高亮，用于展示20 ns MD后金属配位球的稳定性。然而，传统CDA模型的根本局限在于电荷分布固定不变，无法适应局部溶剂结构。这一缺陷在处理高价离子（如$\ce{Al^{3+}}$、$\ce{Zr^{4+}}$）时尤为突出，因为：强极化场：高价离子携带多个正电荷，对周围溶剂产生更强的极化效应动态响应缺失：固定电荷无法捕捉水分子重新排列时的电荷重分布三性质矛盾：优化水合自由能（HFE）时往往牺牲离子-氧距离（IOD）和配位数（CN）的准确性 CDApol模型（Rahnamoun et al., J. Phys. Chem. Lett. 2022）正是为了解决这一根本缺陷而诞生的——通过EEM方法引入动态极化，使电荷分布能够实时响应环境变化。极化效应的物理图像离子诱导偶极：带电金属离子产生的电场使邻近水分子极化，形成诱导偶极矩。这种效应与$r^{-4}$成反比，短程贡献显著。在CDApol模型中，极化效应被引入到金属离子及其虚拟原子本身。中心离子和6个虚拟原子上的电荷可以在总电荷约束下动态调整，形成瞬时偶极矩。这种设计使模型能够：响应环境变化：电荷分布随溶剂结构动态调整捕捉局部极化：无需显式极化水模型即可描述离子-溶剂相互作用保持计算效率：相比Drude等全极化模型，计算成本增加有限一、CDApol模型的设计原理 1. 原始CDA模型的结构图1：极化模型与固定电荷模型的概念对比图1a：经典固定电荷描述中，中心离子与6个水分子配位，但电荷分布不随环境变化。图1b：极化模型中，电子密度随局部溶剂环境重新分布。这张图要表达的不是几何骨架在MD中自由变形，而是电荷分布是否能响应环境。CDApol仍然保留CDA的八面体dummy框架，但核心7个位点的电荷会每步更新，这才是本文所说的极化来源。中心离子：真实的金属离子（如$\ce{Zn^{2+}}$、$\ce{Al^{3+}}$、$\ce{Zr^{4+}}$）虚拟原子：6个带部分正电荷的虚拟原子，以八面体几何构型连接到中心离子几何约束：虚拟原子与中心离子的距离固定为0.9 Å，并保持八面体拓扑。本文对外层配位位点主要讨论的是固定距离构型，没有展开独立的角度/二面角参数细节总电荷约束：中心离子和虚拟原子的电荷之和等于金属离子的形式电荷（+2、+3或+4）在原始CDA模型中，所有电荷都是固定的，无法响应环境变化。而CDApol模型中，虽然几何骨架近似刚性，但电荷分布是柔性的（每步MD都重新计算），这就是极化的含义。 2. 引入动态极化：CDApol CDApol的核心思想是：每一步MD中，7个核心位点（中心金属离子+6个虚拟原子）上的电荷会在总电荷守恒约束下自动重新分配。这个重新分配由电负性均衡方法（EEM）驱动，本质上是一个带约束的能量最小化问题。它的主公式可以简写为： [E_{\text{EEM}} = \sum_i \chi_i q_i + \dfrac{1}{2} \sum_i \sum_j q_i J_{ij} q_j, \quad \sum_i q_i = Q_{\text{total}}] 前一项描述电荷往哪里流，后一项描述电荷重分布要付出什么代价。在总电荷约束下，通过拉格朗日乘子求解，最终等价于求解一个 $7 \times 7$ 的增广线性方程组，每步MD仅需一次线性代数计算。之所以说它是局部动态极化，是因为只有核心7位点是动态电荷未知量——周围的水分子和配体提供瞬时外场，但不作为独立的动态电荷一起优化。整个参数化流程分为两步，下图展示了从DFT参考数据到最终可用CDApol模型的完整管线： graph TB subgraph S1["1.EEM参数训练"] direction LR DFT["DFT计算 7配位水合构象"] --> Target["参考电荷分布 核心7位点"] Target --> EEM["优化EEM参数 χi, ηi, γij"] EEM --> Core1["核心7位点 动态电荷就绪"] end subgraph S2["2.LJ参数扫描"] direction LR Scan["扫描LJ参数 ε, Rmin/2"] --> TI["热力学积分 三点高斯积分"] TI --> HFE["计算HFE"] Scan --> IOD["计算IOD"] Scan --> CN["计算CN"] HFE --> Match["三性质验收 HFE+IOD+CN"] IOD --> Match CN --> Match end S1 --> S2 Match --> Final["CDApol模型 可用于MD模拟"] style DFT fill:#e1f5ff style EEM fill:#fff9c4 style Match fill:#ffe0b2 style Final fill:#c8e6c9,stroke:#4caf50 两步串联进行：第一步定电荷分布（EEM参数），第二步调非键参数（LJ扫描）。这样设计的优势是电荷分布先被约束在合理范围，后续LJ参数只需关注热力学和结构性质的匹配。这套机制的技术细节（含完整公式推导、EEM物理图像、mEEM约束求解、双层筛选机制、两步参数化流程与TI实现）已整理为独立文章：CDApol极化模型方法论详解，明天发。模型实现与软件集成 CDApol模型通过AMBER-PuReMD接口实现： AMBER 20：执行MD模拟和12-6 LJ非键相互作用 PuReMD：执行EEM电荷平衡计算接口设计：每步MD后调用PuReMD更新电荷，实现极化效应 PuReMD 是一个高性能的 ReaxFF 实现（用 C 语言编写），支持共享/分布式内存与 GPU 并行，能够高效执行电荷平衡（EEM）和反应性力场计算，因此常被用作每步 MD 中电荷更新的后端。计算成本：CDApol相比固定电荷CDA模型增加约35%计算时间（单Intel Xeon E5-2680v4核心，50 ps NPT平衡），但显著提升准确性。因此，CDApol既能和非极化水模型（如TIP3P、OPC）搭配，让极化主要发生在金属离子一侧；从方法设计上，它也可以与更一般的极化环境耦合。它仍然沿用标准的12-6 LJ势，不用改动现有力场框架。二、模拟结果与性能评估 1. 电荷动态波动表1总结了CDApol在50 ps NPT平衡过程中的电荷波动：离子中心离子电荷平均值虚拟原子电荷平均值电荷标准差偶极矩标准差 (D) $\ce{Zn^{2+}}$ CDApol +0.66 +0.22 0.05 0.32 $\ce{Al^{3+}}$ CDApol -0.33 +0.55 0.08 0.22 $\ce{Zr^{4+}}$ CDApol +1.09 +0.48 0.10 0.53 $\ce{Al^{3+}}$ CDApol的中心离子电荷为负值，虚拟原子电荷更正。原因：$\ce{Al^{3+}}$的目标IOD（1.88 Å）小于$\ce{Zn^{2+}}$（2.1 Å）和$\ce{Zr^{4+}}$（2.2 Å）电荷重分布使虚拟原子一侧更能响应局部水合环境，从而有助于把IOD调回目标范围。$\ce{Al^{3+}}$的EEM优化里，中心离子会出现负电荷（-0.33），虚拟原子则更正（+0.55）。这是EEM按目标IOD重新分配电荷的结果。目标IOD越短，电荷分布就越倾向于把虚拟原子推到更靠近水分子氧原子的位置。图3：CDApol分子在溶液模拟中的瞬时偶极矩左图：$\ce{Zn^{2+}}$ CDApol在1000个快照中的瞬时偶极矩，平均波动约0.32 D。中图：$\ce{Al^{3+}}$ CDApol的瞬时偶极矩，平均波动约0.22 D。右图：$\ce{Zr^{4+}}$ CDApol的瞬时偶极矩，平均波动约0.53 D。颜色说明：三幅子图均使用灰色曲线表示随快照变化的瞬时偶极矩。偶极矩曲线说明，CDApol不是给金属离子套上一组固定部分电荷，而是在总电荷守恒下让7个核心位点的电荷重新分配。$\ce{Zr^{4+}}$的偶极波动最大，说明高价离子周围的局部电场更容易诱导电荷重排。 2. 水合自由能（HFE）准确性图4：扫描LJ参数得到的水合自由能结果上排：$\ce{Zn^{2+}}$、$\ce{Al^{3+}}$和$\ce{Zr^{4+}}$的CDApol模型HFE扫描结果。下排：相同三种离子的固定电荷CDA模型HFE扫描结果。坐标说明：横轴是$R_{\min}/2$，纵轴是$\varepsilon$，每个点对应一组12-6 LJ参数。颜色说明：颜色表示该组LJ参数下计算得到的HFE绝对值，单位为kcal/mol，具体数值以每个子图右侧图例为准；颜色跨度越大，说明HFE对LJ参数越敏感。这张图回答的是LJ参数还能不能被稳定地调出来。固定电荷CDA的颜色变化更剧烈，说明HFE很依赖具体LJ参数；CDApol上排的颜色范围更窄，表示动态电荷分担了一部分溶剂化响应，参数扫描不再完全靠LJ项硬拟合。 3. 结构性质：IOD和CN 图5展示了IOD值的LJ参数扫描结果：图5：扫描LJ参数得到的离子-氧距离结果上排：$\ce{Zn^{2+}}$、$\ce{Al^{3+}}$和$\ce{Zr^{4+}}$的CDApol模型IOD扫描结果。下排：相同三种离子的固定电荷CDA模型IOD扫描结果。坐标说明：横轴是$R_{\min}/2$，纵轴是$\varepsilon$，每个点对应一组12-6 LJ参数。颜色说明：颜色表示该组LJ参数下得到的IOD，具体Å数值以每个子图右侧图例为准；蓝色通常对应较短IOD，红橙色对应较长IOD。小编锐评：好烦啊，不用同一个scale IOD扫描展示了结构性质对LJ参数的响应。CDApol可以在合理参数区域同时接近目标M-O距离，而固定电荷CDA更容易出现距离偏短或偏长的问题。所以HFE、IOD和CN需要一起验收。图6：经典AMBER、固定电荷CDA和CDApol的最终误差对比三个小图分别对应$\ce{Zn^{2+}}$、$\ce{Al^{3+}}$和$\ce{Zr^{4+}}$。颜色说明：蓝色柱表示HFE误差，橙色柱表示IOD误差，灰色柱表示CN误差。横轴说明：每个子图内比较经典AMBER、固定电荷CDA和CDApol三种模型。纵轴说明：百分比误差，相对于目标实验值计算。图6把热力学和结构指标放在同一张图里比较。CDApol的关键优势不是只把某一个数值调好，而是在HFE、IOD和CN三个指标上同时降低误差；这正好对应高价金属离子固定电荷模型最难处理的地方。方法 HFE准确性 IOD准确性 CN准确性计算成本可迁移性 AMBER单原子接近实验，但IOD和CN偏差大差（严重低估）差（严重低估）低差固定电荷CDA 接近实验，但高度依赖LJ参数偏差较小较准确低中等 CDApol 优秀（偏差<1%）优秀（偏差<3%）良好（偏差<8%）中等（+35%）有待更广泛验证数据来源：Table 2中$\ce{Zn^{2+}}$、$\ce{Al^{3+}}$、$\ce{Zr^{4+}}$三个离子的实验值与CDApol计算值对比。HFE偏差最大的$\ce{Zn^{2+}}$为0.98%，最小$\ce{Al^{3+}}$为0.17%。IOD偏差均<3%。CN略有高估（$\ce{Zn^{2+}}$ 6.5 vs 6.0，$\ce{Al^{3+}}$ 6.1 vs 6.0，$\ce{Zr^{4+}}$ 8.3 vs 8.0）。 CDApol的优势：在本文测试的标准12-6 LJ模型框架下，同时把实验HFE、IOD和CN都拉回到较合理的范围，而固定电荷CDA模型在IOD和CN上偏离目标值较大。对 $\ce{Zn^{2+}}$ 来说，文中提到的唯一小缺点是 CN 有一点点升高，但作者把这看作 CDApol 更灵活的表现。方法优势与局限性优势物理图像更完整：显式引入离子诱导偶极，比固定电荷模型更符合高价金属离子的溶剂化过程。效率还算可控：相比Drude振子模型，CDApol只增加约35%的计算成本。兼容性较好：既能和TIP3P这类非极化水模型耦合，也能和OPC这类非极化四点水模型一起用。结果更均衡：在HFE、IOD和CN三个指标上都能接近实验，而不是只顾住一个量。局限性参数化工作量大：EEM参数和LJ参数都要调，流程不算轻松。适用范围还窄：目前只针对3种离子验证，换到别的金属或复杂环境还要重新测试。几何类型有限：当前主要支持八面体配位，其他配位模式还需要扩展。 EEM本身是点电荷近似：能描述动态电荷重分布，但还不擅长各向异性分布。 CDApol的核心点是把动态极化引入CDA框架，并保持和标准12-6 LJ力场兼容。这样既保留了CDA避免直接金属-配体强相互作用的优点，又让电荷随环境变化。局限性与未来方向扩展离子种类：目前只验证了3种高价金属离子，后面还要扩到更多生物相关离子。扩展配位几何：现在主要是八面体，其他几何也值得做。进入真实体系：纯水里表现不错，但进到蛋白、通道、复杂配体环境里还要再验。进一步提升EEM表达能力：如果要更细致描述各向异性极化，可能还得引入更高阶的电荷表示。适用场景建议 mindmap root(CDApol适用场景) 推荐使用 Zn²⁺ Al³⁺ Zr⁴⁺ 高价离子水溶液同时复现HFE IOD CN 计算资源有限 需考虑极化效应金属离子水合 /去水合自由能谨慎使用未参数化的其他金属离子非八面体配位的体系需要更显式的各向异性极化 或成键重排不推荐通用金属参数化策略低价离子Na⁺ K⁺ 需要全文重新验证的其他极化环境

Molecular Dynamics · 2026-05-06

CDApol极化模型方法论详解：EEM动态电荷平衡的原理与实现

CDApol极化模型方法详解：EEM动态电荷平衡的原理与实现对应正文见固定电荷模型为何难以模拟高价金属离子？关键在于引入动态极化效应。本文信息标题：A Polarizable Cationic Dummy Metal Ion Model 作者：Ali Rahnamoun, Kurt A. O’Hearn, Mehmet Cagri Kaymak, Zhen Li, Kenneth M. Merz, Jr., Hasan Metin Aktulga 发表期刊：The Journal of Physical Chemistry Letters 发表时间：2022年6月8日 DOI：https://doi.org/10.1021/acs.jpclett.2c01279 单位：Michigan State University, USA 引用格式：Rahnamoun, A.; O’Hearn, K. A.; Kaymak, M. C.; Li, Z.; Merz, K. M., Jr.; Aktulga, H. M. (2022). A Polarizable Cationic Dummy Metal Ion Model. J. Phys. Chem. Lett., 13, 5334-5340. 相关框架：Rahnamoun, A.; Kaymak, M. C.; Manathunga, M.; Götz, A. W.; Duin, A. C. T.; Merz, K. M., Jr.; Aktulga, H. M. (2020). ReaxFF/AMBER—A Framework for Hybrid Reactive/Nonreactive Force Field Molecular Dynamics Simulations. J. Chem. Theory Comput., 16, 7645-7654. https://doi.org/10.1021/acs.jctc.0c00874 快速结论 EEM能量函数由电负性线性项（驱动力）和硬度矩阵二次项（转移代价）构成，是理解动态电荷平衡的核心总电荷约束可通过增广线性方程组处理，每步MD只需求解核心区电荷平衡核心7位点是唯一动态电荷未知量：中心金属离子+6个虚拟原子的电荷每步重排，周围溶剂分子提供瞬时静电环境外层固定电荷如何进入求解：CDApol主文没有完整展开这套记号；本文采用ReaxFF/AMBER里的mEEM框架来辅助解释两步参数化策略：第一步训练EEM参数（$\chi_i,\eta_i,\gamma_{ij}$）复现DFT电荷分布，第二步扫描LJ参数（$\varepsilon,R_{\min}/2$）同时匹配实验HFE、IOD和CN 方法详解 EEM能量函数的定义 CDApol模型通过电负性均衡方法（Electronegativity Equalization Method，EEM）引入动态极化。首先定义EEM能量函数： [E_{\text{EEM}} = \sum_{i=1}^{N} \chi_i q_i + \dfrac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} q_i J_{ij} q_j] 其中$N$是CDApol核心位点数，即7个电荷位点（1个中心金属离子+6个虚拟原子），不包括周围水分子。公式中每个符号的含义： $q_i$：第$i$个位点的瞬时电荷（可正可负，单位是元电荷$e$） $\chi_i$：第$i$个位点的电负性参数（单位是能量，如eV）。在EEM里，$\chi_i$是通过拟合QM电荷分布得到的可调参数，不是Mulliken定义的实验量 $J_{ij}$：位点$i$和$j$之间的相互作用矩阵元——对角项$J_{ii} = \eta_i$是Parr-Pearson硬度参数（防止电荷无限堆积），非对角项$J_{ij}$是带屏蔽的静电耦合（防止短程库仑爆炸） CDApol文中用$J_{ij}$，ReaxFF/mEEM文中用$H_{ij}$，二者是同一类相互作用核的不同记号。在本文记号体系里，对角项$J_{ii} = H_{ii} = \eta_i$，非对角项$J_{ij} = H_{ij}$。 EEM能量函数也可写成矩阵形式： [E_{\text{EEM}} = \chi^{\mathsf T} q + \dfrac{1}{2} q^{\mathsf T} H q] 一句话：EEM不是给整盒水一起「调电荷」，而是只让核心7个位点在总电荷守恒下随环境重排。 EEM能量函数的物理意义 EEM能量函数的两项分别对应电荷流动的驱动力和电荷重分布的代价：第一项：$\chi_i q_i$——电荷流动的驱动力这一项决定电荷想往哪里流。虽然$\chi_i$在EEM中被称为Mulliken电负性参数，但它实际上是一个可调的拟合参数，只是借用了电负性的概念。传统的Mulliken电负性定义为 $\chi = \dfrac{I + A}{2}$，其中$I$是电离能，$A$是电子亲和能。在化学中，电负性越大的原子（如氟、氧）越倾向于吸引电子。但在EEM模型里，$\chi_i$是通过拟合QM电荷分布得到的参数，可以是正值也可以是负值，其符号和大小决定了该位点在能量最小化时的电荷分配倾向。能量项$\chi_i q_i$的物理含义： $\chi_i$越小：该位点越倾向于失去电荷（带正电）；$\chi_i$越大（更负）：越倾向于获得电荷（带负电）如果$\chi_i$较小但仍为正，$q_i > 0$时$\chi_i q_i > 0$，能量升高——位点不想要电荷却还带正电，能量当然高；$\chi_i$较大而$q_i < 0$时则势能很低系统会自动调整$q_i$，让总能量$E_{\text{EEM}}$最小——这就是电荷重新分配的驱动力第二项：$\dfrac{1}{2} q_i J_{ij} q_j$——电荷重分布的代价这一项决定电荷重分布要付出什么代价。它包含两部分：对角项：$J_{ii} = \eta_i$（self energy代价）对角项对应的是单个位点上积累电荷的代价。当$i=j$时，能量项变成：$\dfrac{1}{2} \eta_i q_i^2$。这里$\eta_i$是Parr-Pearson硬度参数，物理上定义为： [\eta_i = \dfrac{I_i - A_i}{2}] 也就是电离能和电子亲和能的差值的一半。能量项的物理含义：这是一个二次项，无论$q_i$是正是负，$q_i^2$总是正的，所以这一项总是让能量升高——防止电荷无限制地堆到某一个位点上。$\eta_i$越大，电荷积累的代价越高，位点越硬，极化响应越弱；$\eta_i$越小，位点越软，极化响应越强非对角项：$J_{ij}$（位点间相互作用）非对角项对应的是两个不同位点之间的静电相互作用。在CDApol主文里，这部分只强调采用了electrostatic shielding来避免近距离的过强排斥；若按ReaxFF/mEEM的写法理解，非对角项对应的是一种带屏蔽的库仑核，其强度随位点间距离和屏蔽参数变化。能量项$\dfrac{1}{2} q_i J_{ij} q_j$的物理含义：$q_i$和$q_j$同号时相互排斥（能量升高），异号时相互吸引（能量降低）。位点越接近、屏蔽越弱，耦合作用通常越强。 $\gamma_{ij}$的物理意义：如果没有屏蔽项，简单点电荷模型在短程会给出过强排斥引入屏蔽后，短程相互作用会被软化，用来近似真实电子云不是点电荷这一事实总结：非对角项$\dfrac{1}{2} q_i J_{ij} q_j$描述位点间的静电耦合。它让电荷分布不能随意变化，因为同号电荷会互相排斥，异号电荷会互相吸引。屏蔽参数则用来抑制相邻位点之间的非物理短程排斥。总电荷约束与增广线性方程组求解 EEM真正求解的是一个带约束的能量最小化问题： [\min_{{q_i}} E_{\text{EEM}}, \quad \sum_{i=1}^{N} q_i = Q_{\text{total}}] 在CDApol中，$Q_{\text{total}}$固定为金属离子的形式电荷（$\ce{Zn^{2+}}$的+2、$\ce{Al^{3+}}$的+3或$\ce{Zr^{4+}}$的+4）。电荷可以在中心离子和6个虚拟原子之间自由流动，但7个位点的电荷总和必须守恒。先构造拉格朗日函数，把约束吸进来： [\mathcal{L}(q_1,\ldots,q_N,\varepsilon) = \sum_i \chi_i q_i + \dfrac{1}{2}\sum_{i,j} q_i H_{ij} q_j + \varepsilon\left(\sum_i q_i - Q_{\text{total}}\right)] 对每个位点$i$求偏导并令其为零： [\dfrac{\partial\mathcal{L}}{\partial q_i} = \chi_i + \sum_j H_{ij} q_j + \varepsilon = 0] 其中$\varepsilon$是拉格朗日乘子（注意这里$\varepsilon$前是负号，从$\varepsilon(\sum_i q_i - Q)$展开后得到$+\varepsilon$，移项后得$-\varepsilon$），它保证在最优解处强制满足总电荷约束——$\varepsilon$本身不是电荷，而是核心区平均电化学势的度量，反映系统在坚持$\sum q_i = Q_\text{total}$时付出的代价。这给出$N$个标量方程，加上约束本身： [\begin{cases} \chi_i + \sum_{j=1}^N H_{ij} q_j + \varepsilon = 0 & (i=1,\ldots,N) \sum_{j=1}^N q_j = Q_{\text{total}} & (\text{约束}) \end{cases}] 写成矩阵形式，就是增广线性方程组： [\begin{bmatrix} H & \mathbf{1} \mathbf{1}^{\mathsf T} & 0 \end{bmatrix} \begin{bmatrix} q \varepsilon \end{bmatrix} = \begin{bmatrix} -\chi Q_{\text{total}} \end{bmatrix}] 其中$\mathbf{1}$是全1列向量，最后一行对应总电荷约束$\mathbf{1}^{\mathsf T}q = Q_{\text{total}}$。这是一个$8 \times 8$的线性系统，核心7位点每步MD只需一次线性代数求解。其中系数矩阵中的非对角元为 $J_{ij} = F_{ij}$，为了避免极近距离下的库仑发散，SI中明确了其静电屏蔽参数（Electrostatic Shielding） $\gamma_{ij}$ 的公式： [F_{ij} = \begin{cases} \dfrac{1}{\left( r_{ij}^3 + \gamma_{ij}^{-3} \right)^{1/3}} , & r_{ij} \le r_{\text{nonb}} 0, & \text{otherwise} \end{cases}] 其中 $\gamma_{ij} = \sqrt{\gamma_i \cdot \gamma_j}$ 是一对元素相依赖的屏蔽项，确保 $r_{ij} \to 0$ 时静电势保持有限避免模型崩溃。物理图像：想象一个水池系统，7个水池通过管道连接，水可以在池子之间流动，但总水量不变。每个池子有自己的高度偏好（$\chi_i$）和容量限制（$\eta_i$），池子之间还有流动阻力（$J_{ij}$）。最终水会流到一个平衡状态，让整个系统的势能最低。局部动态极化：外层固定电荷如何驱动核心区理解EEM时，必须先把「参与方程」和「不作为未知量被优化」分开。CDApol的核心只有7个位点（中心金属离子+6个虚拟原子）是动态电荷未知量；周围的水分子和配体是外层固定电荷，参与方程但不是未知量。外层固定电荷对核心区的作用，可以借用ReaxFF/AMBER框架（JCTC 2020）里的mEEM记号来理解。该框架将体系划分为核心区（core）和过渡区/MM区两部分。核心区的未知电荷记为$q_{\text{core}}$，外层固定电荷记为$q_{\text{trans}}$（常数向量，由力场给定，每步MD不重新优化）。哪些外层原子进入$q_{\text{trans}}$？这由双层筛选机制决定：第一层（分区筛选）：先按体系划分确定候选身份——transition和MM区原子进入$q_{\text{trans}}$候选池，core区原子进入$q_{\text{core}}$。第二层（距离筛选）：在每一个MD步，只保留与core区发生有效非键耦合的外层原子，即与core区原子距离在截断半径$r_{\text{cut}}$以内的那些候选原子。 [\mathcal{S}{\text{trans}}(t)=\left{j\in(\text{transition}\cup\text{MM})\mid \exists i\in\text{core},\ r{ij}(t)<r_{\text{cut}}\right}] 因此，$q_{\text{trans}}$对应的是集合$\mathcal{S}{\text{trans}}(t)$里这些原子的固定电荷向量。由于水分子和配体都在运动，$\mathcal{S}{\text{trans}}(t)$会随时间变化，是一个运行时集合。将电荷按core/trans分区后，增广线性方程组可以整理为只含核心区未知量的形式： [\begin{bmatrix} H_{\text{core}} & \mathbf{1}c \mathbf{1}_c^{\mathsf T} & 0 \end{bmatrix} \begin{bmatrix} q{\text{core}} \varepsilon \end{bmatrix} = \begin{bmatrix} -\chi_{\text{core}} Q_{\text{total}} \end{bmatrix} - \begin{bmatrix} H_{\text{core-trans}} \mathbf{0}^{\mathsf T} \end{bmatrix} q_{\text{trans}}] 其中$q_{\text{trans}}$是常数向量（AMBER固定电荷），不是新的动态电荷变量。右端第二项$H_{\text{core-trans}}q_{\text{trans}}$是外层固定电荷在核心区产生的静电驱动项，也可以等价写成「有效电负性」形式： [\chi_{\text{core}}^{\text{eff}}=\chi_{\text{core}}+H_{\text{core-trans}}q_{\text{trans}}] 动态极化的来源：外层水分子和配体不参与电荷优化，只提供瞬时静电场。随着它们的位置变化，$\chi_{\text{core}}^{\text{eff}}$实时波动，核心7位点重新分配电荷——这就是CDApol中「动态极化」的核心机制：电荷分布随局部构型响应，但7个核心位点的总电荷始终守恒。参数化流程两步串联的参数化策略 CDApol的参数化分两步：第一步训练极化力场参数（EEM + dummy骨架几何），第二步扫描LJ参数。具体分工：步骤训练目标训练数据参数状态第一步：极化力场参数训练 EEM参数（$\chi_i, \eta_i, \gamma_{ij}$）和dummy骨架几何 QM能量profile（1-7配位）+ QM电荷分布（1-6配位） EEM参数和dummy几何参数从无到有；不涉及任何HFE计算第二步：12-6 LJ参数扫描 $\varepsilon$和$R_{\min}/2$ 每个参数组合跑MD+TI，评估HFE、IOD、CN与实验值的偏差 EEM参数锁定；LJ参数搜索；挑最优组合两步严格串联：第一步完全独立于第二步，第一步产出的EEM参数一旦锁定，第二步只动LJ参数。如果同时优化所有参数，EEM的拟合目标（QM电荷）和LJ的拟合目标（实验热力学性质）会互相干扰；分步则各司其职。分步的原因：EEM的拟合目标是QM电荷分布，LJ的拟合目标是实验热力学性质（HFE/IOD/CN）。两者不在同一个目标空间里，如果同时优化，参数会打架——这也是为什么参数化必须分成两步走。在每一步MD中，EEM参数固定，EEM通过增广线性方程组计算给定外部环境下的最优电荷；LJ参数则在MD和TI的总体框架中被优化。图2：CDApol参数化管线。第一步（左）以QM参考训练EEM和dummy几何，第二步（右）用热力学积分在LJ参数空间中搜索最优组合。 EEM参数训练细节第一步在指定构象下同时复现QM能量和QM电荷——电荷和能量一起训练，不是只训练电荷。具体做法： DFT计算：使用Gaussian 16，在B3LYP/6-311+g(d,p)水平上计算$\ce{Al^{3+}}$与1-7个水分子配位时的势能面，共7个构象。能量基准（Figure S.1）：图S.1展示了随配位数变化的QM能量曲线，横轴是配位数（1到7），纵轴是相对能量。八面体（6配位）构象能量最低，即全局能量极小点；欠配位或过配位时能量都会升高。图S.1：$\ce{Al^{3+}}$ CDApol模型训练的QM能量曲线。六配位（Octahedral）构象能量最低，与之偏离的欠配位或过配位构象能量均升高。图中同时标注了各构象的配位类型（Monohydrate至Heptahydrate）。电荷基准（Section S.2）：对1-6配位的每个构象，提取DFT优化的原子电荷作为参考电荷分布。EEM参数（$\chi_i, \eta_i, \gamma_{ij}$）的作用就是让CDApol在给定构象下通过EEM求解得到的电荷分布与QM电荷尽量一致。误差函数同时覆盖能量和电荷两类数据： $e_i = \left(\dfrac{x_{i,\mathrm{QM}} - x_{i,\mathrm{R}}}{w_i}\right)^2$ 其中$x_{i,\mathrm{QM}}$和$x_{i,\mathrm{R}}$分别是QM参考值和当前ReaxFF计算值，$w_i$是权重参数。参数优化通过最小化该误差函数来完成：对每个训练构象，先固定几何（原子坐标取DFT优化后的结构），然后EEM在总电荷约束下求解出7个核心位点的最优电荷分布（与MD中每步的做法相同），再比较与QM电荷的偏差；同时也对整个构象的总能量与QM能量做比较。权重$w_i$可以按需调节，让电荷项和能量项在总误差中的贡献比例可控。训练数据覆盖1-7配位的水合构象，使CDApol在欠配位（1-5配位）、八面体（6配位）和过配位（7配位）构象中都能复现QM结果，最终在MD模拟中得到正确的配位数。 LJ参数扫描细节第二步在$(\varepsilon, R_{\min}/2)$二维参数空间中进行网格搜索： $\varepsilon$扫描范围：1-3.4 kcal/mol，步长0.2 kcal/mol；$R_{\min}/2$扫描范围：0.6-1.0 Å，步长0.1 Å 每个$(\varepsilon, R_{\min}/2)$组合都要跑完整的MD+TI计算，评估HFE、IOD和CN三项性质 LJ势函数采用标准AMBER形式： [V_{ij} = \varepsilon_{ij}\left[\left(\dfrac{R_{\min,ij}}{r_{ij}}\right)^{12} - 2\left(\dfrac{R_{\min,ij}}{r_{ij}}\right)^6\right]] 结合规则使用Lorentz-Berthelot混合规则，将金属中心的LJ参数与TIP3P水分子的氧原子参数混合，生成成对LJ势。MD模拟在20 Å × 20 Å × 20 Å的TIP3P水盒子中进行，共2736个水分子。0.25 fs是时间步长的保守选择；SI对$\ce{Zn^{2+}}$ CDApol模型测试了0.5 fs、1 fs、1.5 fs和2 fs，结果差异均很小，说明CDApol在较大时间步下仍然稳定：时间步 IOD (Å) CN HFE (kcal/mol) 0.5 fs 2.04 6.3 -464.8 1.0 fs 2.04 6.3 -465.6 1.5 fs 2.12 6.3 -465.5 2.0 fs 2.05 6.1 -465.8 热力学积分与三点高斯积分第二步中每个参数组合的HFE通过热力学积分（Thermodynamic Integration，TI）计算。TI的核心思想是沿着一条连接初态和末态的路径，逐步「充电」或「去充电」，然后对路径上的能量导数积分，得到自由能差： [\Delta G = \int_0^1 \left\langle \dfrac{\partial U(\lambda)}{\partial \lambda} \right\rangle_\lambda \mathrm{d}\lambda] 其中$\lambda$是耦合参数（$\lambda=0$对应初态，$\lambda=1$对应末态），$U(\lambda)$是$\lambda$状态下的势能，$\langle \cdots \rangle_\lambda$表示在$\lambda$状态下的系综平均。积分无法解析求解，只能在离散的$\lambda$点上通过MD模拟采样$\langle \partial U/\partial\lambda\rangle_\lambda$，再用数值积分连起来。三点高斯积分（Three-point Gaussian Quadrature）通过精心选择积分点位置和权重，用较少采样点获得较高精度。对于三点高斯积分，$\lambda$点的位置和权重由Legendre多项式的根决定： [\lambda_1 = 0.1127, \quad \lambda_2 = 0.5, \quad \lambda_3 = 0.8873] [w_1 = 0.2778, \quad w_2 = 0.4444, \quad w_3 = 0.2778] 自由能差近似为： [\Delta G \approx w_1 \left\langle \dfrac{\partial U}{\partial \lambda} \right\rangle_{\lambda_1} + w_2 \left\langle \dfrac{\partial U}{\partial \lambda} \right\rangle_{\lambda_2} + w_3 \left\langle \dfrac{\partial U}{\partial \lambda} \right\rangle_{\lambda_3}] 三点高斯积分可以精确积分5阶多项式，对多数较平滑的$\langle \partial U/\partial\lambda\rangle_\lambda$曲线已经够用，常被选作低成本的自由能积分方案。 TI在CDApol中的具体作用：三点Gauss-Legendre积分将连续积分近似为三个加权和，让每个参数组合只需跑三个$\lambda$窗口的MD模拟就能估计HFE——省去了大量中间窗口的采样。 TI协议细节 SI中描述的TI协议包含两个独立的自由能变换：电荷变换：从$Q=0$到金属离子的形式电荷（+2、+3或+4） LJ变换：关闭金属离子与水分子之间的LJ相互作用每个参数组合在三个$\lambda$窗口内采样（$\lambda = 0.11270, 0.5, 0.88729$）。$\lambda$状态下的势函数采用线性混合： [V(\lambda) = (1 - \lambda)^k \cdot V_0 + \left[1 - (1 - \lambda)^k\right] \cdot V_1] 其中$V_0$是初态势能，$V_1$是末态势能。$k=1$时简化为标准线性插值（$V = (1-\lambda)V_0 + \lambda V_1$）。SI测试了不同$k$值，发现超过三个$\lambda$窗口并未显著改善结果，因此采用线性混合（$k=1$）和三点Gauss-Legendre积分即可满足精度需求。真空计算（无水环境）在一个窗口内即可快速收敛。 CDApol偶极矩计算（SI Section S.3） CDApol的瞬时偶极矩相对于分子质心计算： [P_x = \sum_{i=1}^n q_i (x_i - x_c),\quad P_y = \sum_{i=1}^n q_i (y_i - y_c),\quad P_z = \sum_{i=1}^n q_i (z_i - z_c)] [P = \sqrt{P_x^2 + P_y^2 + P_z^2}] 其中$(x_c, y_c, z_c)$是分子质心坐标，$q_i$是原子电荷。质心坐标由原子质量加权平均得到。SI的图S.3展示了50 ps NPT平衡过程中$\ce{Zn^{2+}}$、$\ce{Al^{3+}}$和$\ce{Zr^{4+}}$三种离子的中心离子和虚拟原子的电荷涨落。偶极矩越大，说明电荷重新分布越明显。大小关系基本是$\ce{Zr^{4+}} > \ce{Zn^{2+}} > \ce{Al^{3+}}$，但并不是简单按价态单调变化：$\ce{Al^{3+}}$的中心离子会出现负电荷补偿，偶极方向也会跟着变。

Molecular Dynamics · 2026-05-06

12-6-4模型如何解决金属离子模拟难题？通过调节螯合原子极化率适配化学环境

12-6-4模型如何解决金属离子模拟难题？通过调节螯合原子极化率适配化学环境本文信息论文一：金属-咪唑相互作用标题：Accurate Metal−Imidazole Interactions 作者：Li, Z.; Song, L.F.; Sharma, G.; Koca Fındık, B.; Merz, K.M., Jr. 发表期刊：Journal of Chemical Theory and Computation 发表时间：2022年12月30日 DOI：https://doi.org/10.1021/acs.jctc.2c01081 单位：Michigan State University, Department of Chemistry and Biochemistry 引用格式：Li, Z.; Song, L.F.; Sharma, G.; Koca Fındık, B.; Merz, K.M., Jr. (2023). Accurate Metal−Imidazole Interactions. J. Chem. Theory Comput., 19(2), 619-625. 建模金属离子与有机小分子之间的相互作用，可以弥合两类模拟之间的差距：水中金属离子和金属蛋白中的金属离子。如先前研究所确立的，12-6-4 Lennard-Jones（LJ）型非键模型因其能够考虑诱导偶极效应，在模拟金属离子系统中取得了巨大成功。本研究使用势能面平均（PMF）方法，针对11种金属离子（$\ce{Ag(I)}$、$\ce{Ca(II)}$、$\ce{Cd(II)}$、$\ce{Co(II)}$、$\ce{Cu(I)}$、$\ce{Cu(II)}$、$\ce{Fe(II)}$、$\ce{Mg(II)}$、$\ce{Mn(II)}$、$\ce{Ni(II)}$和$\ce{Zn(II)}$），结合三种常用水模型（TIP3P、SPC/E和OPC），对两种质子化状态（HID和HIE）的咪唑分子中螯合氮原子的极化率进行了参数化。研究表明，标准12-6和未修改的12-6-4模型无法准确建模这些相互作用。通过调节螯合氮原子的极化率，12-6-4 LJ型非键模型能够正确描述金属、配体和溶剂之间的三组分相互作用。论文二：金属-醋酸盐相互作用标题：Thermodynamics of Metal−Acetate Interactions 作者：Jafari, M.; Li, Z.; Song, L.F.; Sagresti, L.; Brancato, G.; Merz, K.M., Jr. 发表期刊：Journal of Physical Chemistry B 发表时间：2024年1月16日 DOI：https://doi.org/10.1021/acs.jpcb.3c06567 单位：Michigan State University, Department of Chemistry and Biochemistry 引用格式：Jafari, M.; Li, Z.; Song, L.F.; Sagresti, L.; Brancato, G.; Merz, K.M., Jr. (2024). Thermodynamics of Metal−Acetate Interactions. J. Phys. Chem. B, 128, 684-697. 金属离子在蛋白质介导的相互作用中扮演着重要角色，既可作为催化剂促进生物过程，也可作为重要的蛋白质结构元件。在计算研究中准确预测金属离子相互作用一直是挑战。使用复现金属离子水合自由能的12-6-4参数会导致金属离子-醋酸盐相互作用的高估，因此需要微调模型来专门处理羧基。研究表明，标准12-6 LJ模型在复现11种金属离子与醋酸根之间实验结合自由能方面存在显著不足。本研究描述了优化的C4参数，用于12-6-4 LJ非键模型，可与三种广泛使用的水模型（TIP3P、SPC/E和OPC）配合使用。这些参数能够准确匹配11种金属离子与醋酸根之间的实验结合自由能。核心结论标准12-6 LJ模型无法同时复现金属离子的水合自由能和离子-氧距离 12-6-4模型通过添加离子诱导偶极相互作用（$C_4/r^4$项）显著改善了这一问题螯合原子（氮或氧）的极化率是决定模型准确性的关键参数极化率与水模型几何性质和离子电子构型密切相关 OPC水模型由于具有更强的偶极和四极矩，需要更低的极化率值背景金属离子的生物学角色与模拟的重要性金属离子在生物系统中扮演着不可或缺的角色。据估计，超过25%的蛋白质含有金属离子，它们以结构元件或催化辅因子的形式参与众多生物过程。金属离子在生物体内承担多重角色：催化作用方面，它们作为辅因子参与核糖核苷酸还原酶、光系统II等酶促反应，促进电子转移；结构作用方面，锌指蛋白等需要金属离子稳定其三维结构；信号传导方面，钙离子等作为第二信使调控细胞信号通路。此外，金属离子还参与金属离子通道和转运蛋白的跨膜运输过程，或直接参与或与螯合剂（如铁载体）形成复合物后参与运输。在金属蛋白和金属酶中，金属离子主要与水分子及氨基酸侧链上的氧、氮、硫原子配位。PDB数据库中有大量含金属离子的结构，其中含有组氨酸配位的金属离子结构尤其丰富。羧酸类残基（天冬氨酸Asp和谷氨酸Glu）同样在金属蛋白功能中扮演重要角色，其侧链的羧基（$\ce{COO^-}$）能够与金属离子形成稳定配位。准确模拟金属离子与氨基酸侧链的相互作用，对于理解金属蛋白的功能机制、设计金属蛋白药物、以及预测金属离子在生物系统中的行为至关重要。然而，在原子水平上准确描述金属离子与蛋白质之间的相互作用，对实验和计算方法都构成了挑战。现有建模方法的局限性与技术挑战在力场模拟中准确描述金属离子相互作用面临巨大挑战。经典的12-6 Lennard-Jones（LJ）非键模型形式简单、参数化方便，但存在根本性缺陷：它无法同时复现金属离子的水合自由能（HFE）和离子-氧距离（IOD）——这两个关键热力学和结构性质常常互相矛盾。这是因为12-6模型未考虑离子诱导偶极相互作用，在高极化系统中这一效应不可忽略。为解决这一问题，学术界发展了多种金属离子建模方法：方法原理优点局限性 12-6 LJ非键模型传统范德华势简单、计算高效无法同时复现HFE和IOD 键合模型（Bonded Model）金属与配体形成共价键结构准确不能模拟配位数变化 Drude振子模型显式极化物理严格参数化复杂、计算成本高 AMOEBA极化力场原子多极矩+极化高精度高估金属-配体结合强度阳离子占位原子模型（CDA）虚拟位点模拟配位避免直接金属-配体相互作用转移性有限 12-6-4 LJ非键模型添加离子诱导偶极项兼顾效率和精度仍需针对特定配体调参键合模型虽然在复现实验结构方面表现良好，但由于金属离子与配体之间形成了固定的共价连接，它无法模拟配位数变化或配体交换——这在模拟催化金属中心（需要频繁的配体进出）和金属离子转运（需要穿越细胞膜的离子通道）时是致命缺陷。显式极化力场（如Drude振子、AMOEBA）虽然物理上更严格，能够自然地捕捉离子诱导偶极效应，但参数化过程复杂。研究表明，AMOEBA力场在预测金属离子-醋酸盐结合常数方面有潜力，但倾向于高估金属离子的结合强度，导致结果与实验数据存在定量偏差。这可能与极化力场参数化困难有关。相比之下，12-6-4模型虽然需要针对特定配体调参，但能够在保持计算效率的同时实现足够的精度。 12-6-4模型的改进与研究动机 Li和Merz等人发展的12-6-4 LJ非键模型通过在传统12-6势能函数中加入诱导偶极吸引项来描述金属离子的极化效应。在AMBER力场中，其形式为： [U_{ij}(r) = \dfrac{C_{12}^{ij}}{r^{12}} - \dfrac{C_6^{ij}}{r^6} - \dfrac{C_4^{ij}}{r^4} + \dfrac{eQ_iQ_j}{\varepsilon_r r}] 其中$C_4$项（又称极化项）与金属离子和螯合原子的极化率直接相关。该模型在AMBER中使用各向同性的pairwise $C_4$参数，不显式包含角度依赖项。核心思想：不直接调节金属离子-水的$C_4$参数（该参数已在水合自由能参数化中确定），而是通过调节螯合原子的极化率来适应不同的化学环境，从而复现金属-配体结合自由能。研究动机：虽然12-6-4模型最初针对金属-水体系开发并取得成功，但将其直接应用于金属-蛋白配体体系时仍存在不足。论文一表明，针对组氨酸侧链（咪唑氮）调优极化率是必要的；论文二进一步发现，使用复现水合自由能的参数会导致金属-醋酸盐相互作用的高估，需要针对羧基氧进行专门的参数优化。两篇研究共同构成了金属离子与生物配体相互作用的完整参数体系。研究内容一、12-6-4模型参数化方法论两篇研究采用相同的参数化框架，核心步骤如下： 1. 力能学计算：PMF与伞形采样研究使用势能面平均（PMF）方法结合伞形采样（Umbrella Sampling, US）来计算金属离子-配体结合自由能。PMF通过沿反应坐标（通常是金属离子与螯合原子之间的距离）构建自由能剖面，能够准确描述结合过程中的能量变化。该方法结合加权直方图分析算法（WHAM），已广泛用于计算金属离子在不同环境中的PMF能量。表1：两篇论文的参数化流程对比流程环节论文一（咪唑）论文二（醋酸根）初始参数默认极化率值（如$\alpha_0 = 1.09~\mathrm{Å^3}$ for N）继承金属离子水合参数的$C_4$项采样策略迭代式：us1（粗算）→ us2（精算）系统式：收敛性测试 → 正式计算参数调整方式未明确说明（推测为手动试错调整$\alpha_0$值）未明确说明（推测为手动试错调整$\alpha_0$值） us1（粗算） 1 ns/窗口伞形采样 2 ns/窗口（收敛性测试） us2（精算） 3 ns/窗口伞形采样 2-10 ns/窗口（逐步增加）收敛判断结合自由能落在实验值±0.25 kcal/mol内三次独立计算误差< 0.35 kcal/mol 正式采样时长 3 ns/窗口 TIP3P/OPC: 6 ns；SPC/E: 4 ns 反应坐标金属离子与螯合氮之间的距离醋酸根羧基碳原子与金属离子之间的距离注：两篇论文均未详细描述$\alpha_0$的具体调整算法（如每次调整多少、是否使用某种优化方法）。仅说明”迭代调整极化率值，直到结合自由能落在目标范围内”。具体调整策略可能是手动试错，也可能是参考了作者之前的相关参数化协议，但均未在论文中公开。 2. C4项的物理基础 $C_4$项描述的是离子诱导偶极相互作用，其物理图像是：带电金属离子产生的电场会使邻近配体原子极化，形成诱导偶极矩。这一效应与距离的四次方成反比（比静电相互作用衰减更快），但在短程相互作用中贡献显著。理论上，$C_4$可由螯合原子极化率$\alpha_0$导出： [C_4 = \dfrac{q_i^2 \alpha_0}{2(4\pi\varepsilon_0)^2} \dfrac{1}{\cos\theta_0 - 1}] 其中$\alpha_0$是螯合原子的极化率。需要强调：该公式描述的是理论上的角度依赖图像，而AMBER实现中使用的是各向同性的有效pairwise $C_4$参数。参数化过程中，研究者通过调节$\alpha_0$来改变有效$C_4$值，从而拟合实验结合自由能。 3. 三种水模型的几何差异水模型类型 O-H键长 (Å) H-O-H角 (°) 氧原子电荷 TIP3P 3点 0.9572 104.72 -0.8340 SPC/E 3点 1.0000 109.47 -0.8476 OPC 4点 0.8724 103.6 -1.3582 OPC水模型通过引入额外的电荷位点实现了更强的偶极和四极矩，使其更准确地模拟液态水的极化行为。这也解释了为何OPC模型需要更低的极化率来复现相同的实验结合自由能。咪唑论文图1：HID和HIE咪唑分子的电荷分布对比展示了两种质子化状态咪唑的原子电荷差异，不同颜色代表不同原子的电荷分布 HID（δ氮质子化）和HIE（ε氮质子化）的电荷分布不同，影响与金属离子的相互作用强度二、金属-咪唑相互作用的参数化研究体系论文一使用咪唑分子模拟组氨酸侧链，针对11种金属离子进行参数化：$\ce{Ag(I)}$、$\ce{Ca(II)}$、$\ce{Cd(II)}$、$\ce{Co(II)}$、$\ce{Cu(I)}$、$\ce{Cu(II)}$、$\ce{Fe(II)}$、$\ce{Mg(II)}$、$\ce{Mn(II)}$、$\ce{Ni(II)}$和$\ce{Zn(II)}$。研究同时考虑了HID（δ氮质子化）和HIE（ε氮质子化）两种组氨酸质子化状态，并测试了TIP3P、SPC/E和OPC三种水模型。关键发现：极化率与水模型的关联研究揭示了一个重要规律：极化率与水模型几何性质存在强相关性。 TIP3P ≈ SPC/E > OPC：OPC水模型的极化率需求最低原因：OPC独特的几何结构（更短的O-H键、更小的H-O-H角）使金属离子在第一水合壳层被较大咪唑分子替换时经历的空间位阻更小因此，OPC水模型中金属-咪唑结合在热力学上更受青睐，不需要那么高的极化率来补偿但这一规律背后存在物理合理性质疑：研究通过调节$\alpha_0$来匹配实验数据，主要依赖热力学拟合，未进一步用独立量子化学计算交叉验证。$\alpha_0$本应由电子结构的第一性原理决定，而非完全通过热力学数据反推。这种参数化方法虽然能复现现有实验值，但其泛化能力存疑——当应用于新的金属-配体组合时，是否仍需重新调参？电子构型的影响研究发现金属离子的d轨道电子构型显著影响其与咪唑氮的相互作用：单价离子（$\ce{Ag(I)}$、$\ce{Cu(I)}$）：需要更高的氮极化率，因为它们对配体的诱导偶极效应更强 d轨道对称性（半满或全满的d轨道）会增强屏蔽效应，降低离子对氮的诱导能力同族元素中，单价离子半径越大极化率需求越低；二价离子则相反但这些“趋势”的解释较为模糊。论文声称d轨道对称性影响诱导能力，但未提供定量证据——没有量子化学计算来验证d轨道电子密度分布与极化率需求之间的直接关联。这些趋势解释更多来自参数化结果归纳，而非从物理原理出发的预测。咪唑论文图2：三种水模型的结构对比 TIP3P和SPC/E为三点模型，OPC为四点模型（带额外电荷位点，图中用绿色球体标示） OPC的独特几何结构（更短的O-H键长、更小的H-O-H角）使其在金属离子溶剂化中表现不同注：本图仅为水分子几何结构示意图，不涉及电荷分布比较（电荷分布见图1）三、金属-醋酸盐相互作用的参数化研究体系与测试集偏差论文二使用醋酸根离子（$\ce{CH3COO^-}$）模拟天冬氨酸和谷氨酸的羧基侧链，同样针对11种金属离子进行参数化。但测试集设计存在系统性偏差：6个金属-醋酸盐复合物晶体结构中，5个是$\ce{Zn^{2+}}$体系（$\ce{Zn^{2+}}$-醋酸根、两个$\ce{Zn^{2+}}$-碳酸酐酶II复合物等）。这种过度依赖单一金属离子的设计导致模型验证偏向$\ce{Zn^{2+}}$体系——虽然论文声称参数可迁移至其他二价离子（$\ce{Ca^{2+}}$、$\ce{Mg^{2+}}$等），但缺乏对这些重要生物学离子的独立验证。$\ce{Ca^{2+}}$和$\ce{Mg^{2+}}$在信号传导和酶催化中扮演关键角色，它们的参数准确性直接影响模型在真实金属蛋白中的应用可靠性。单齿配位与双齿配位醋酸根与金属离子的结合存在两种模式：单齿配位（Monodentate）：仅一个氧原子与金属配位双齿配位（Bidentate）：两个氧原子同时参与配位这一结合模式的选择受多种因素影响，包括金属离子的电荷、离子半径、电子构型以及结合位点的配位环境。醋酸盐论文图1：$\ce{Cd(II)}$-醋酸根复合物的PMF能量剖面展示了沿金属-羧基碳原子距离的结合自由能变化曲线，横轴为距离，纵轴为自由能双齿配位（约2.8 Å，能量最低点）比单齿配位（约3-3.5 Å）能量更低，偏好约1.5 kcal/mol，说明双齿配位更稳定水模型对结合模式的影响研究揭示了水模型对醋酸根结合模式的显著影响：金属离子 TIP3P/SPC/E偏好 OPC偏好 $\ce{Ni(II)}$, $\ce{Mg(II)}$, $\ce{Zn(II)}$, $\ce{Co(II)}$, $\ce{Fe(II)}$, $\ce{Mn(II)}$ 单齿单齿 $\ce{Cu(II)}$ 双齿单齿（显著偏好） $\ce{Cd(II)}$, $\ce{Ca(II)}$, $\ce{Ag(I)}$ 双齿双齿 $\ce{Cu(II)}$的特殊行为：在三点水模型（TIP3P、SPC/E）中$\ce{Cu(II)}$偏好双齿配位，但在OPC中转变为强偏好单齿配位（约1-1.5 kcal/mol差异）。这与OPC更精确的偶极矩描述导致金属-水相互作用更强有关。醋酸盐论文图2：TIP3P水模型中金属离子-醋酸根结合的PMF自由能剖面展示11种金属离子的自由能曲线，其中$\ce{Cu(II)}$（红色曲线）显示清晰的双齿配位最小值醋酸盐论文图3：SPC/E水模型中金属离子-醋酸根结合的PMF自由能剖面整体行为与TIP3P相似，$\ce{Cu(II)}$仍偏好双齿配位醋酸盐论文图4：OPC水模型中金属离子-醋酸根结合的PMF自由能剖面 $\ce{Cu(II)}$的双齿配位峰消失，转变为强单齿配位偏好（约1-1.5 kcal/mol差异），说明水模型选择显著影响结合模式醋酸盐氧的极化率趋势与论文一类似，论文二也发现极化率与多个因素相关：同族元素：半径越大的离子，其螯合氧原子需要的极化率越高结合模式：双齿配位的$\ce{Ca(II)}$和$\ce{Mg(II)}$需要更高的极化率负极化率的奇异性：对于$\ce{Ni(II)}$和$\ce{Mg(II)}$在OPC模型中，研究发现需要负极化率才能复现实验值——这可能是对12-6 LJ和标准12-6-4模型高估的补偿四、模型性能对比参数化前后对比 11种金属离子的实验与计算结合自由能对比（上图咪唑论文图3；下图醋酸盐论文图5）上图展示优化后的12-6-4模型（绿色柱）能准确复现实验值（黑色柱），标准12-6模型（红色柱）大幅高估，默认12-6-4模型（蓝色柱）在三点水模型中低估下图同样展示优化参数（绿色）与实验值（黑色）的高度一致性，验证了参数化策略的有效性模型平均误差问题 12-6 LJ 较大大幅高估结合强度（除$\ce{Ag(I)}$外） 12-6-4 默认中等在三点水模型中低估结合自由能；在OPC中高估 12-6-4 优化约0.35 kcal/mol 成功复现实验值跨软件验证与系统基准缺失论文二使用PLUMED软件独立计算PMF进行外部验证，结果与AMBER原生实现高度一致（误差约0.5 kcal/mol），证实了参数化的稳健性。但研究缺乏与显式极化力场的系统对比。论文声称12-6-4模型“计算效率高”，但未量化这一优势——没有与AMOEBA、Drude等极化力场的计算时间对比，也未在相同测试集上比较精度。读者无法判断12-6-4模型在精度-效率权衡中的真实位置。AMOEBA虽然可能“高估”结合强度，但其物理严格性可能对某些体系（如电荷转移显著的金属中心）更重要——这一点论文未深入讨论。五、实际应用：Glyoxalase I金属蛋白论文二将优化后的参数应用于大肠杆菌乙二醛酶I（Glx I）金属蛋白（PDB ID: 1F9Z）的MD模拟验证。该蛋白每个金属结合位点包含His5、His74、Glu122和Glu56，协调一个$\ce{Ni(II)}$离子和两个水分子。关键结果：使用优化后的12-6-4参数（包括组氨酸氮和羧基氧的参数），经过200 ns MD模拟后：两个组氨酸残基在两个金属结合位点中均维持了与金属离子的相互作用负电荷残基（GLU56和GLU122）以单齿模式与金属配位，与晶体结构一致两个水分子保持在金属结合位点中这证明了优化参数在真实金属蛋白系统中的可转移性。但验证仅限于静态结构保持，未测试动力学性质。论文未报告金属-配体键的振动频率、配体交换速率或构象转换速率等动力学指标。12-6-4模型可能对静态性质准确，但对预测金属-配体键的解离/重组动力学表现如何？这在催化金属中心（频繁的配体进出）和金属转运蛋白（离子通道）中是关键性质——这一点研究未涉及。醋酸盐论文图6：Glx I金属蛋白MD模拟验证左侧：Glx I的晶体结构（PDB ID: 1F9Z），展示二聚体的两个金属结合位点，每个位点包含His5、His74、Glu122、Glu56和$\ce{Ni(II)}$离子（绿色球）右侧：200 ns MD模拟结束时的构象，优化参数下两个组氨酸（His5、His74）保持与金属配位，两个谷氨酸（Glu56、Glu122）以单齿模式配位，两个水分子（红色球）保持在结合位点中验证了优化参数在真实金属蛋白中的可靠性两篇研究的内在联系与整合价值方法论的一致性两篇研究遵循完全相同的方法论框架：相同的力能学方法：PMF结合伞形采样相同的参数化策略：调节螯合原子极化率相同的水模型测试集：TIP3P、SPC/E、OPC 相同的验证金属集合：11种从单价到二价的金属离子参数体系的完整性将两篇研究整合，构成了完整的金属离子-氨基酸侧链相互作用参数体系：组氨酸侧链：咪唑氮的极化率参数（已有）天冬氨酸/谷氨酸侧链：羧基氧的极化率参数（已有）这使得研究者能够在MD模拟中同时准确描述金属离子与带正电（组氨酸）和带负电（天冬氨酸/谷氨酸）氨基酸侧链的相互作用。核心物理图像两篇研究共同揭示的核心物理图像是：金属离子与螯合原子的相互作用是三组分系统（金属-配体-溶剂）综合作用的结果。通过简单地调节螯合原子的极化率，12-6-4模型能够适应不同的化学环境，这正是其强大之处。关键结论与批判性总结优势与价值尽管存在上述局限性，两篇研究的核心价值不应被否定：在固定电荷框架内的显著改进：12-6-4模型通过添加$C_4/r^4$项描述离子诱导偶极相互作用，能够同时复现金属离子的结构性质（IOD）和热力学性质（HFE），而这是标准12-6模型无法做到的参数化流程清晰可复现：研究提供了完整的PMF计算流程和$\alpha_0$参数表，便于其他研究者直接使用或验证对$\ce{Zn^{2+}}$体系有实用价值：虽然泛化能力有限，但对于锌蛋白（生物学中极其重要）的静态结构优化和结合自由能计算，提供了可靠的工具揭示了水模型选择的重要性：OPC水模型由于其更精确的偶极/四极矩描述，在金属离子溶剂化模拟中表现更佳——这一发现对领域有普遍指导意义结合模式的敏感性发现：醋酸根的结合模式（单齿vs双齿）对水模型选择高度敏感，提醒研究者在模拟金属蛋白时必须谨慎选择水模型核心物理效应的缺失 12-6-4模型虽然通过诱导偶极项改善了固定电荷模型的不足，但仍忽略关键物理效应：电荷转移：金属-配体键中普遍存在电子云重排，部分电荷从配体转移到金属（或反之）多体协同效应：一个配体的极化会影响邻近配体的电子分布，这在螯合位点（多个配体围绕一个金属）中尤为重要这些效应在显式极化力场（如AMOEBA、Drude）中能自然描述，但12-6-4模型只能通过“有效极化率”隐式近似——当配体环境与参数化条件差异较大时，这种近似可能失效。实验数据的单一来源论文二的实验数据仅来自一组实验（Li等人早期的结合自由能测量），未验证其他实验组的数据。如果原始实验存在系统误差（如pH控制、离子强度、金属浓度测定等），模型会继承甚至放大这些偏差。相比之下，论文一整合了多个实验源的数据，可靠性更高。参数可迁移性的有限验证金属-咪唑论文声称螯合原子的极化率参数具有“可迁移性”，但验证范围狭窄：只在“组氨酸-金属”体系测试未测试“半胱氨酸-金属”、“甲硫氨酸-金属”、“天冬酰胺-金属”等其他常见配体醋酸盐氧的极化率并不是直接照搬咪唑氮的参数，而是针对金属-醋酸根相互作用重新优化得到。两篇论文共享的是同一套12-6-4参数化思路，而不是同一组螯合原子参数。论文声称的适用范围：根据原文，这些参数“可应用于金属蛋白和过渡金属离子通道与转运蛋白的研究”，因为醋酸根“代表天冬氨酸和谷氨酸等带负电氨基酸侧链”。但实际验证仅限于Glx I这一个蛋白体系，缺乏在其他金属蛋白中的广泛测试。适用场景与使用建议基于以上批判性分析，12-6-4模型的适用场景需谨慎界定：推荐使用： $\ce{Zn^{2+}}$蛋白的静态结构优化：参数化数据最丰富，验证最充分结合自由能计算：对于已参数化的金属-配体组合，热力学性质预测可靠固定电荷力场的扩展：当需要考虑极化效应但无法承担AMOEBA计算成本时谨慎使用：其他金属离子：$\ce{Ca^{2+}}$、$\ce{Mg^{2+}}$、$\ce{Fe^{2+}}/\ce{Fe^{3+}}$等参数验证不充分，建议先做小规模测试动力学性质预测：金属-配体键振动频率、配体交换速率等未验证非常规配体：半胱氨酸（硫配位）、甲硫氨酸等需独立参数化不推荐：作为通用金属参数化策略：每个新体系都可能需要重新优化$\alpha_0$，缺乏真正的“可迁移性” 电荷转移显著的体系：如金属-硫簇合物、氧化还原活性中心等未来方向将参数扩展至更多金属离子和配体类型开发自动化参数化流程，降低使用门槛结合量子化学计算，从第一性原理确定$\alpha_0$，减少经验拟合系统对比显式极化力场，明确12-6-4模型的精度-效率边界

Molecular Dynamics · 2026-05-06

神经网络实现Fe(II)复合物高精度建模：缩放电子embedding方法预测自旋态能量

神经网络实现Fe(II)复合物高精度建模：缩放电子embedding方法预测自旋态和分裂能本文信息标题：Modeling Fe(II) Complexes Using Neural Networks 作者：Hongni Jin, Kenneth M. Merz Jr. 发表期刊：Journal of Chemical Theory and Computation 发表时间：2024年3月5日 DOI：https://doi.org/10.1021/acs.jctc.4c00063 单位：Michigan State University, Department of Chemistry; Department of Biochemistry and Molecular Biology, USA（美国密歇根州立大学化学系；生物化学与分子生物学系）代码与数据：https://github.com/Neon8988/Iron_NNPs 引用格式：Jin, H.; Merz, K. M., Jr. (2024). Modeling Fe(II) Complexes Using Neural Networks. J. Chem. Theory Comput., 20(7), 2551-2558. https://doi.org/10.1021/acs.jctc.4c00063 摘要本研究报道了一个包含超过23000个构象的Fe(II)数据集，涵盖低自旋和高自旋两种自旋态。该数据集用于开发神经网络模型，能够预测Fe(II)有机金属复合物的能量和自旋态分裂随构象的变化。为实现这一目标，研究者提出了一种缩放电子embedding（scaled electron embedding）方法，在描述Fe(II)复合物的神经网络中隐式覆盖长程相互作用。对于总能量预测，最低MAE达到0.037 eV；而分裂能预测的最低MAE为0.030 eV。与仅包含短程相互作用的基线模型相比，缩放电子embedding将总能量和分裂能预测的准确度提高了70%以上。相较于半经验方法，本研究提出的模型在自旋态和分裂能预测上具有显著优势。核心结论大规模数据集：构建了超过23000个Fe(II)复合物构象的数据集，涵盖低自旋和高自旋两种状态缩放电子embedding：提出创新算法，通过局部预分布与门控预测，隐式处理长程相互作用，显著提升模型精度预测精度提升：总能量预测MAE仅0.037 eV，自旋分裂预测MAE仅0.030 eV 相比基线提升：准确度比短程模型提高70%以上，在自旋态判断上明显优于半经验方法摘要图展示了本研究提出的缩放电子embedding方法的核心思想：通过原子embedding向量和电荷/自旋信息编码来隐式捕捉长程电子相互作用左侧显示了典型的Fe(II)八面体复合物结构，中心为Fe原子，周围为配体；右侧展示了神经网络架构流程背景 Fe(II)复合物的自旋交叉现象过渡金属复合物因其独特的电子性质在材料科学和生物无机化学中占据重要地位。$\ce{Fe(II)}$离子具有$\mathrm{3d}^6$电子构型，在八面体配位场中可以存在两种自旋态：低自旋态（$\mathrm{t_{2g}^6 e_g^0}$，$S=0$）和高自旋态（$\mathrm{t_{2g}^4 e_g^2}$，$S=2$）。两种自旋态之间的能量差通常在10 kcal/mol以内，这意味着外部刺激（如温度、压力、光照）可以诱导自旋态转换，这种现象称为自旋交叉（spi）。自旋交叉复合物在传感器、记忆存储、分子开关、显示器件等领域具有广阔应用前景。然而，准确的量子化学建模面临巨大挑战：高精度方法如CASPT2和MRCISD+Q虽然可靠，但计算成本过高，只能应用于小体系；密度泛函理论（DFT）虽然计算效率较高，但对交换-相关泛函的选择高度敏感——局部泛函倾向于低估低自旋态能量，而混合泛函则常常过度稳定高自旋态。几何构象对自旋态的影响现有研究的一个重大局限是：大多数工作只考虑单一几何构型下各自旋态的能量。然而，Fe(II)复合物的配体取向可以显著影响自旋态相对稳定性。不同配体构象可能导致金属-配体键长、键角的变化，进而改变配体场强度和自旋态能级顺序。这种几何-自旋态耦合效应在传统计算研究中往往被忽视。此外，大多数$\ce{Fe(II)}$复合物在自然界中存在为八面体几何结构，且至少包含两个unique配体。这些配体与中心金属离子的协同相互作用可以稳定整个复合物，而配体取向甚至会导致不同类型的非共价相互作用（如$\ce{CO}$和$\ce{NO}$配体既可以轴向结合，也可以形成弱的平行非共价相互作用）。因此，一个可靠的计算模型必须能够同时处理几何多样性和电子相关性。机器学习在量子化学中的应用近年来，机器学习在量子化学领域取得显著进展，特别是在势能面拟合和能量预测方面。神经网络能够学习高精度量子化学计算结果，并以远低于DFT的成本进行预测。然而，将机器学习应用于过渡金属体系仍面临挑战：d电子的强关联效应、自旋态的多重简并以及长程电子相互作用的准确描述都使得模型训练更加困难。关键科学问题如何构建足够大且多样化的Fe(II)复合物数据集，涵盖不同配体类型、几何构象和自旋态？如何在神经网络中有效描述长程电子相互作用，特别是金属-配体之间的静电和极化效应？如何设计神经网络架构，使其既能准确预测总能量，又能可靠预测自旋态分裂？机器学习模型能否在保持高精度的同时，相比半经验方法实现数量级的精度提升？研究内容一、数据集构建与量子化学计算数据集规模与多样性数据集关键统计统计维度数值 Unique复合物数 383个（$\leq$ 80原子/复合物） HS几何构象数 15568个 LS几何构象数 13266个总几何结构数 28834个训练集/验证集/测试集 23834 / 2500 / 2500 测试集HS-LS构象对 23446对（来自121个复合物）所有构象使用CREST（metadynamics采样）生成，经B97-3c几何优化后，用TPSSh-D4/def2-TZVP计算单点能。图1：Fe(II)_80数据集中的典型结构示例展示了从CSD数据库中选取的典型$\ce{Fe(II)}$复合物结构示例，包含不同配体类型的八面体配位构型每个结构都标注了对应的refcode（Cambridge Structural Database编号）结构涵盖多种常见配体，如$\ce{CO}$、$\ce{NH3}$、$\ce{H2O}$等图2：Fe(II)_80数据集的化学空间分布图2a：分子尺寸分布，展示数据集中复合物的原子数目分布图2b：元素分布，展示数据集中包含的各元素比例图2c：HS自旋态构象示例（refcode： ACEYOW01），展示同一复合物的3个构象图2d：LS自旋态构象示例（refcode： ACEYOW01），展示同一复合物的4个构象图2e：HS和LS自旋态中能量最低的几何结构，$\Delta E_\mathrm{HS-LS} = 12.45$ kcal/mol 这两张图说明数据集覆盖了多种配体类型和化学环境，而不仅仅是单一结构。这为后续的模型训练提供了丰富的构象多样性。二、缩放电子嵌入方法传统神经网络的局限大多数3D分子神经网络（如SchNet）的输入只有两类信息：原子类型（用核电荷数$Z_i$表示）和原子坐标（$\mathbf{r}_i$）。这对于有机小分子来说基本够用，但对于Fe(II)复合物存在致命问题——这两个输入无法区分高自旋态和低自旋态，因为它们的几何结构可能完全一样。解决思路很直接：把电荷和自旋态信息也喂给神经网络。问题在于怎么“喂”才最有效。三种电子embedding方式对比（1）仅核embedding（仅$\mathbf{x}_z^0$）——最原始的做法这就是SchNet的默认输入。它只根据原子核电荷查表得到一个embedding向量，与坐标一起输入网络。MAE高达0.140 eV（总能量）和0.118 eV（分裂能），因为神经网络根本不知道研究的是Fe(II)的哪个自旋态。（2）SpookyNet风格——基于注意力机制 SpookyNet的设计思路来自自然语言处理中的注意力机制（attention）：对每个原子，用核embedding生成“查询”（queries），用电荷embedding生成“键”（keys）和“值”（values），通过缩放点积注意力自动加权不同原子电荷的贡献。这比纯核embedding好得多，MAE降至0.045/0.036 eV，但仍有提升空间。（3）缩放电子embedding（本文方法）本文提出了更简洁高效的缩放电子embedding（scaled electron embedding）方法，分三步走：第一步：初始化局部电荷门控基准将复合物的总电荷$Q$平均分配给每个原子，得到初始基准电荷：$q_i = Q/N$。这里使用平均电荷而不是真实的原子局部电荷，是因为这提供了一个不依赖任何外部量子化学计算的中立起点。网络通过后续的门控机制学习每个原子相对于这个平均基准的分布权重，从而在实现端到端快速预测的同时，天然保证电荷分配在全局上的守恒这一物理约束。第二步：通过MLP将核embedding映射为“门控信号” 用MLP（多层感知机）把核embedding（包括原子类型embedding $\mathbf{x}z^0$ 和电子构型embedding $\mathbf{x}{ez}^0$）处理成一个实数$q$，作为决定每个原子相对电荷/自旋分配权重的门控信号。这里，电子构型embedding是为了在模型中引入依赖于原子类型（如过渡金属d电子数目排布）的特征，帮助模型打破仅靠核电荷数带来的特征简并性： [q = \mathrm{MLP}(\mathbf{x}z^0 + \mathbf{x}{ez}^0)] 第三步：与电荷/自旋信息相乘，Softplus激活后缩放归一把门控信号$q$与电荷（或自旋态）信息相乘，并通过Softplus激活函数处理： [\mathbf{e}_j^i = \mathrm{Softplus}(q \cdot \mathrm{MLP}(s_j))] 关于Softplus激活函数：Softplus $\ln(1 + e^x)$ 是ReLU的平滑近似。由于神经网络拟合的势能面对原子坐标的一阶导数即为受力，如果使用在原点不可导的ReLU，会导致力的预测出现不连续的跃变。因此，使用处处平滑可导的Softplus代替ReLU，对于构建平滑可微的物理能量面至关重要。随后，将$N$个原子的贡献加和，再除以$N$做归一化： [\mathbf{e}^i = \dfrac{\sum_{j=1}^{N} \mathbf{e}_j^i}{N} \quad (s = Q \text{ 或 } S)] 最后加上残差连接得到最终原子的完整embedding： [\mathbf{x}0 = \mathbf{x}_z^0 + \mathbf{x}{ez}^0 + \mathbf{e}_Q^0 + \mathbf{e}_S^0] 整个流程如图3所示。图3：分子完整嵌入$\mathbf{x}_0$的初始化流程图3左侧：总电荷$Q$先平均分配到各原子，得到初始局部电荷图3中间：局部电荷通过MLP与核嵌入（$\mathbf{x}z^0 + \mathbf{x}{ez}^0$）相乘，生成门控信号，区分不同原子的重要性图3右侧：通过Softplus和归一化缩放得到最终电子embedding，加上残差连接防止梯度消失自旋态embedding（$s=S$）采用完全相同的流程为什么缩放电子embedding比SpookyNet更好？两者根本区别在于：注意力机制需要同时学习queries、keys、values三个映射和它们之间的交互权重，参数多、训练难度大；而本文的门控-缩放策略只需要训练两个MLP，结构简单得多，等效于用更少的参数显式建模了电荷/自旋守恒的物理约束。此外，将总电荷均分后缩放归一这一步显式保证了电荷守恒（所有局部电荷之和等于总电荷$Q$），而注意力机制只能隐式学习这一约束。用公式表示，本文方法的核心就是两步：Softplus门控 + 均值归一，物理意义清晰：门控决定“这个原子带多少电”，归一化确保“所有原子加起来电荷正确”。为什么电子embedding能隐式捕捉长程相互作用？本文并未给出详细的理论解释，仅指出electronic embeddings $\mathbf{x}_0^E$ are already relevant to these long-range interactions。可能的物理解释是：电荷和自旋信息本身就是全局性质（电荷守恒、自旋态是整个复合物的性质），将它们编码到每个原子的表示中，使得message passing能够传播非局部的信息，从而隐式建模了超越截断半径的长程效应。但这属于作者的合理推测，原文未展开论证。三、模型性能评估表1：不同模型组合的总能量和分裂能预测MAE（eV）模型电子embedding类型总能量MAE 分裂能MAE SchNet SpookyNet embeddings 0.045 0.036 SchNet Scaled embeddings 0.037 0.030 SchNet 仅$\mathbf{x}_z^0$ 0.140 0.118 SchNet + EwaldMP SpookyNet embeddings 0.083 0.068 SchNet + EwaldMP Scaled embeddings 0.083 0.070 SchNet, EwaldMP SpookyNet embeddings 0.048 0.038 SchNet, EwaldMP Scaled embeddings 0.050 0.039 PAINN SpookyNet embeddings 0.189 0.108 PAINN Scaled embeddings 0.173 0.127 PAINN 仅$\mathbf{x}_z^0$ 0.128 0.120 PAINN + EwaldMP SpookyNet embeddings 0.192 0.127 PAINN + EwaldMP Scaled embeddings 0.176 0.113 PAINN, EwaldMP SpookyNet embeddings 0.149 0.125 PAINN, EwaldMP Scaled embeddings 0.106 0.094 关键发现：发现具体数据电子embedding至关重要 SchNet仅用$\mathbf{x}_z^0$时MAE为0.140/0.118 eV，加入scaled embeddings后降至0.037/0.030 eV，误差降低约74% Scaled embeddings优于SpookyNet 0.037/0.030 eV vs 0.045/0.036 eV Ewald message passing并非必需 SchNet + scaled embeddings已达到最佳性能，添加EwaldMP并未进一步改善 SchNet优于PAINN 在Fe(II)体系上，SchNet系列表现明显好于PAINN系列与半经验方法对比（Table 2）表2：ML模型与半经验方法在自旋态分裂预测上的性能对比什么是半经验方法？半经验方法是介于DFT和分子力学之间的快速量子化学方法，通过经验参数简化某些积分计算，速度远超DFT但精度较低。本文对比的四种方法包括：PM6-D3H4和PM7（基于NDDO近似），以及spGFN1-xTB和spGFN2-xTB（自旋极化的紧束缚方法，专为过渡金属自旋态设计）。方法正确预测基态自旋数量分裂能MAE (eV) SchNet + scaled embeddings 23438 / 23446 0.0300 PM6 6724 / 23307 2.8904 PM7 9757 / 23428 2.1062 spGFN1-xTB 5539 / 23428 3.5372 spGFN2-xTB 4407 / 23446 3.7195 关键结论：半经验方法不仅定量误差大（MAE为2-4 eV），而且连基态自旋都经常判错。相比之下，SchNet + scaled embeddings只判错了8对（23438/23446正确），分裂能MAE仅0.030 eV。从物理原理看，自旋态分裂对长程相互作用之所以如此敏感，是因为自旋态分裂本质上是配体场分裂能（$\Delta_\text{oct}$）与电子配对能（P）之间的竞争。配体场分裂能不仅取决于直接键合的配体，还受到次近邻配体、远程静电势以及配体间极化效应的影响。例如，在八面体$\ce{Fe(II)}$复合物中，轴向配体的变化会通过极化效应影响赤道平面配体的场强，进而改变$\mathrm{t_{2g}}$和$\mathrm{e_g}$轨道的能级差。这些长程贡献在分裂能（两种轨道能量的差值）中会被放大，因此必须准确描述。四、模型外推能力验证新配体类型测试为评估模型的泛化能力，研究者在训练集中未包含的新配体类型上测试了模型：配体类型训练集中是否存在能量MAE (eV) 分裂MAE (eV) bpy（联吡啶）否 0.048 0.039 $\ce{Cl^-}$ 是（训练集） 0.035 0.028 虽然新配体的预测误差略有增加，但仍保持在化学精度范围内，证明了缩放电子embedding具有良好的外推能力。关于泛化到其他金属：原则上可以推广到$\ce{Co(III)}$、$\ce{Mn(II)}$等其他过渡金属，但需要重新训练。不同过渡金属的d电子数、自旋态多样性和配位偏好差异很大。例如，$\ce{Co(III)}$（$\mathrm{3d}^6$）通常只有低自旋态，而$\ce{Co(II)}$（$\mathrm{3d}^7$）则存在高自旋和低自旋两种状态。缩放电子embedding方法本身是通用的，但需要针对每种金属构建相应的训练数据集。本研究提供的$\ce{Fe(II)}$数据集和方法框架可以作为扩展到其他金属的起点。不同几何构型测试为评估模型对极端几何构型的预测能力，研究者测试了拉伸、压缩和扭曲三类构型：构型类型操作方式能量MAE (eV) 拉伸构型 Fe-配体键长增加20% 0.062 压缩构型 Fe-配体键长减少15% 0.058 扭曲构型配体-Fe-配体角偏离理想值30°以上 0.071 模型在训练分布附近表现良好，但对极端几何的预测精度下降，这是未来改进的方向。关键结论与批判性总结本研究通过缩放电子embedding方法实现了Fe(II)复合物能量和自旋态分裂的高精度预测，对领域产生多方面影响：学术影响：为过渡金属复合物的机器学习建模提供了新方法，证明了隐式长程相互作用描述的有效性。构建的23000余个构象数据集为后续研究提供了宝贵资源，可用于开发更强大的模型或进行基准测试。方法学影响：缩放电子embedding作为一种通用模块，可以与各种神经网络架构（SchNet、其他架构）结合，为其他需要长程相互作用的体系（如离子晶体、表面吸附、超分子组装）提供了解决思路。应用影响：高精度、低成本的能量预测使得大规模分子动力学模拟和构象搜索成为可能，这对于理解Fe(II)复合物的自旋交叉动力学、光诱导构象变化以及催化反应机理具有重要价值。局限性局限类型具体描述训练分布依赖模型在训练集覆盖的化学空间内表现优异，但对极端几何（键长拉伸20%以上、键角扭曲30°以上）的预测误差增大。外推到完全新配体类型时，需要谨慎验证。动态性质预测未探索研究仅关注静态能量预测，未涉及分子动力学或激发态性质。自旋交叉过程涉及核运动和非绝热耦合，这些动态性质的建模需要进一步发展。电子密度信息缺失缩放电子embedding虽然捕捉了长程相互作用，但无法提供电子密度分布、电荷转移等化学洞察。对于需要理解反应机理或设计新配体的任务，仍需结合传统量子化学计算。数据集化学多样性有限虽然数据集规模大，但主要集中于$\ce{Fe(II)}$和常见配体（$\ce{CO}$、$\ce{CN^-}$、$\ce{H2O}$、$\ce{NH3}$等）。对于氧化态变化（如$\ce{Fe(II)}/\ce{Fe(III)}$氧化还原对）、多核金属簇合物或固相材料中的Fe中心，模型尚未验证。未来方向方向具体内容扩展到其他过渡金属构建$\ce{Co}$、$\ce{Ni}$、$\ce{Mn}$、$\ce{Cr}$等金属的大规模数据集，开发跨金属通用模型或迁移学习策略动态性质建模结合非绝热分子动力学或路径积分分子动力学，模拟自旋交叉过程的动态演化模型可解释性缩放电子embedding虽然有效，但内部机制仍为”黑箱”。未来需要提升模型可解释性，理解学到的表示与物理量的对应关系与实验结合将模型预测与X射线吸收谱、穆斯堡尔谱等实验数据结合，通过贝叶斯优化实现模型-实验协同的参数精修

Molecular Dynamics · 2026-05-06

激酶为什么能分清底物和抑制剂？答案藏在协同性和变构网络里

Molecular Dynamics · 2026-05-05

无序的JM基序通过动态效应促进RTKs中经典DFG_out构象的形成

Molecular Dynamics · 2026-04-22

PMF不是画出来就算数：从收敛、重加权到2D自由能面的物理判据

PMF不是画出来就算数：从收敛、重加权到2D自由能面的物理判据很多人第一次做 PMF 时，最容易掉进一个坑：图是画出来了，但物理上并不一定成立。问题在于，能画出来，和能不能当成平衡自由能解释，是两回事。这篇文章只回答几个更基础、也更容易出错的问题：已有数据什么时候足够支持 PMF，什么时候只能报局部结果，什么时候必须重加权，什么时候 2D 图虽然能画，但其实不该把它写成“收敛的自由能面”。结论 PMF 的定义本身并不难，真正困难的是采样是否真的支持这个定义。无偏 MD 确实可以直接给自由能，但前提是分析段已经平稳，而且目标坐标空间被充分访问；只要存在偏置、约束、umbrella 或多窗口合并，就不能跳过重加权。 2D PMF 不是“多画一个维度”那么简单，而是对采样混合提出了更高要求。如果某些区域从来没被访问过，任何后处理都不能把真实自由能补出来；因此，很多时候你真正能安全报告的，并不是全局 PMF，而是局部 PMF、条件分布或状态占据。 PMF 到底是什么对一个集合变量 $\xi$，平衡自由能剖面定义为： [F(\xi) = -k_B T \ln P(\xi) + C] 如果有两个集合变量 $\xi,\eta$，对应的二维自由能面就是： [F(\xi,\eta) = -k_B T \ln P(\xi,\eta) + C] 公式的通俗解释这两个式子真正表达的是一句很朴素的话：某个状态如果在平衡系综里更常出现，它的自由能就更低。所以，问题的核心从来不是“会不会取负对数”，而是你算出来的 $P(\xi)$ 或 $P(\xi,\eta)$ 到底是不是平衡分布，这个分布覆盖的是全局空间还是只覆盖了一个局部盆地，以及每个 bin 里到底有多少有效独立样本。这三件事，才真正决定了你的 PMF 能不能被当成物理结果来解释。文中的 P2 和 Z 可以先理解成两类常见坐标：P2 代表某种取向序参量，也就是“分子更偏向平躺、倾斜还是竖直”的量化描述；Z 代表某种位置坐标，例如分子相对于界面、膜中心或参考平面的距离。它们只是示例符号，实际分析时完全可以替换成体系里真正关心的两个集合变量。什么叫“物理上正确”的 PMF 一条 PMF 要在物理解释上站得住脚，至少要同时满足四件事：数据来自同一个目标系综用来分析的轨迹段已经进入平稳区你关心的坐标范围内发生了足够的往返跃迁误差估计使用的是有效样本数，不是总帧数只要这四条里缺一条，图可能仍然能画出来，但解释时就必须明显降级。第一关：是不是同一个统计系综这一点最容易被忽视。如果所有数据都来自同一统计系综，也就是温度一致、压力设置一致、力场和拓扑一致、体系组成与边界条件一致，同时没有额外偏置或约束，那么这些轨迹才有资格被当作同一个平衡分布的样本来合并分析。那么你可以直接从直方图或核密度估计（KDE）得到 $P(\xi)$，再转成自由能。但只要出现下面任一种情况，就不能把所有帧直接混在一起做直方图：情况为什么不能直接混合对某个坐标加了 umbrella 势采样分布已经被显式改权，不再对应原始无偏分布加了位置约束或取向约束体系访问相空间的方式被限制，直方图不再代表自然占据做过 steered MD 或 pulling 轨迹带有外场驱动，不能直接当成平衡样本合并了不同温度的数据不同温度对应不同平衡分布，不能简单拼接合并了不同哈密顿量或不同参数的数据势能面本身不同，统计权重自然也不同这时你要处理的已经不是“无偏概率”，而是“被改权重后的采样概率”。必须重加权，常见工具就是 WHAM、MBAR，或者更一般的重加权流程。第二关：轨迹是不是已经进入平稳区很多 PMF 最大的问题，不是采样短，而是前半段根本还没平衡。系统一开始从某个强行构建的初始构型出发时，前几十纳秒甚至更久都可能还在弛豫。如果把这一段直接并进统计，得到的就不是平衡分布，而是“初始条件残留 + 平衡波动”的混合物。一个实用做法，是先做平衡段检测，再决定从哪里开始统计。常用工具是 pymbar.timeseries。这里输入的数据，不是什么特殊格式文件，而是某个集合变量随时间变化的一列数据，最常见的就是 P2(t) 或 Z(t) 这样的时间序列： python - <<'PY' from pymbar import timeseries import numpy as np P2_t = np.loadtxt('P2_t.dat') t0, g, Neff = timeseries.detect_equilibration(P2_t, nskip=10) print(t0, g, Neff) PY 如果保存的是多列文件，例如同一份文件里同时有时间、P2 和 Z，那就应该先把真正需要分析的那一列取出来，再送进 detect_equilibration()，而不是把整张表不加区分地直接读进去。这里最值得报告的，不是“我跑了多少 ns”，而是平衡起点 $t_0$、统计低效因子 $g$ 和有效样本数 $N_{\mathrm{eff}}$。真正决定误差条大小的，是独立样本有多少，不是帧有多少。很多时候看起来“已经有几十万帧”，但如果自相关很强，真正能用于统计判断的独立样本可能并不多。第三关：有没有真正发生“来回走动” 这是判断 PMF 是否可信的核心。真正有用的判断，不是“分布看起来挺宽”，而是体系有没有在你关心的几个主要状态之间真正来回走动，也就是是否发生了足够多的往返跃迁（round trips）。对 1D 和 2D PMF，要求到底差在哪里目标至少要看到什么不能轻易下的结论 1D PMF 主要盆地被多次访问，盆地之间有往返跃迁，不同重复给出相近边缘分布只有单盆地波动时，不应宣称得到全局 PMF 2D PMF 两个坐标都被实质性访问，且在固定第一维时第二维也能混合，不同区域之间整体连通如果第二维几乎没动，或固定某一维后另一维几乎不跨峰，就不应宣称得到全局 2D 自由能面如果体系只在一个盆地附近晃动，那么你当然也能画出一条曲线，但那更接近“局部热涨落的自由能近似”，而不是全局 PMF。二维情况则更严格，因为它要求你不仅采到 $\xi$，还要在不同 $\eta$ 条件下把 $\xi$ 也采匀；一旦第二维只是窄范围波动，这张 2D 图通常就只能算局部地形。一个最常见的误区：能画 2D，不等于应该发 2D 一种常见做法是：选两个坐标，做二维直方图，再对联合概率取负对数，最后得到一张彩色图。从程序角度看完全没问题，但从物理角度看，可能只说明一件事：轨迹在一个局部区域里留下了很多点。这时真正应该问的，不是“图是不是好看”，而是三个更扎实的问题。第一，第二维是不是只覆盖了一个很窄的范围；如果是，那么 2D 图只是把局部波动展开成二维，并没有真正回答更大的自由能问题。第二，高自由能区域是“真的高”，还是“根本没采到”；没有访问到的格点，在视觉上很容易被误读成高能区，但统计学上它可能只是空白区。第三，盆地之间的通道是物理能垒，还是统计断裂；如果两个盆地中间几乎没有过渡点，你看到的未必是高能屏障，也可能只是采样没有连通，更专业地说，就是这些区域之间缺少足够的统计连通性。如果这些问题答不上来，最稳妥的表述通常不是“得到了全局 2D PMF”，而是把口径主动降到“局部 2D 自由能地形”“条件分布 $P(\xi\mid\eta)$”或者“已结合区间内的取向自由能”。什么时候无偏 MD 足够无偏 MD 适合回答的问题，其实比很多人想象得更有限，但也更扎实。与其笼统地说“能不能算 PMF”，不如先区分你到底想回答哪一类问题。目标无偏 MD 的适用性更合适的表述单个坐标的 1D 边缘自由能较好 1D PMF 某个局部区域内的自由能起伏较好局部 PMF 分箱后的状态占据比较较好条件分布或占据统计跨多个盆地的全局自由能谨慎只有在多次跨盆地跃迁后才可报告同时含位置与取向的 2D 自由能面很谨慎通常先降级为局部 2D 或条件分布含解离、再结合、重排等慢过程很谨慎往往需要增强采样支撑如果无偏轨迹从头到尾都没有离开某个状态盆地，那么最合理的结论不是“体系没有别的态”，而是：当前采样没有能力回答这个问题。什么时候必须用 WHAM 或 MBAR 这个判断其实很干脆：只要采样权重被改过，就要重加权。与其把这一条说成一句口号，不如直接看常见场景：场景能不能直接做直方图推荐处理同一无偏 MD 可以直方图或 KDE umbrella 窗口不可以 WHAM 或 MBAR 多温度数据合并不可以 MBAR 有约束或 pulling 不可以显式重加权多个偏置窗口做 2D 分布不可以先去偏，再做联合分布已有沿某个坐标布置好的 umbrella 窗口，通常足够支持可靠的 1D PMF。至于能不能进一步得到 2D PMF，要看另一个坐标在每个窗口里是不是也混合得足够好。主坐标被偏置采到，并不自动意味着旁观变量也已经收敛，这一点在实际分析里经常被误判。一个非常实用的判断：你到底能安全声称什么诊断结果最稳妥的说法只有一个局部盆地被采到局部自由能或局部涨落 1D 有多次跨峰跃迁，重复一致可以报告 1D PMF 2D 中第二维很窄只报告条件分布或局部 2D 地形 umbrella 在主坐标重叠良好，但副坐标混合差主坐标 PMF 可信，2D 结果仅作定性参考每个窗口内副坐标多次跨峰，重复一致可以认真讨论 2D PMF 这张表背后的原则其实很简单：结论的口径，必须和采样能力匹配。很多结果并不是“完全不能发”，而是应该主动把口径降到“局部 PMF”“条件分布”或者“占据统计”这一层，这样反而更稳。收敛不能只看“曲线变平” 很多人判断收敛时，只看 PMF 曲线后半段是不是“不怎么变了”。这远远不够，因为一条表面平滑的曲线，可能只是建立在高度相关、重复不一致、或者根本没有跨盆地跃迁的数据上。更可靠的收敛证据链更可靠的判断，通常要把下面几类证据合在一起看：先看结果会不会随时间继续漂，也就是是否仍在发生系统性漂移；再看不同重复是否支持同一组物理结论；接着看你到底有多少真正独立的样本；最后再确认主要状态之间有没有真正发生来回切换，也就是是否存在足够的往返跃迁。时间分块分析：把前 1/3、前 2/3 和全部数据分别算一次 PMF。这样做的目的，不是为了多画几条线，而是看结果会不会继续变。如果主要盆地位置、相对深度和势垒高度还在系统性漂移，那就说明体系还在持续演化、尚未真正稳定下来，此时“看起来平滑”并不等于已经收敛。重复一致性：不同重复轨迹给出的分布或 PMF 应该大体一致。这里最重要的不是三条线能不能完全重合，而是它们是否支持同一个物理结论。如果不同重复之间差异明显，最常见的解释不是“体系本来就这样”，而是混合仍然不足，也就是每条轨迹还在各自记着不同的初始路径。自相关分析：报告 $g$ 和 $N_{\mathrm{eff}}$，确认自己不是在用几十万帧去假装拥有几十万个独立样本。连续轨迹里的相邻帧往往很像，所以“帧数很多”不等于“信息很多”。这一步本质上是在修正相关样本导致的误差低估，也就是给误差条去水分，说明到底有多少真正能独立贡献统计信息的数据点。跃迁计数：主要盆地之间要有实质性的往返，而不是只在一个盆地里高频抖动。很多人看到时间序列很活跃，就以为体系采样得很好，但如果这些波动始终发生在同一个局部盆地里，那么关键状态之间的相对自由能差其实还没有被真正比较过。没有跨盆地跃迁时，很多相对自由能差并不稳。窗口重叠：对 umbrella 来说，相邻窗口必须足够连通。如果相邻窗口之间几乎没有共同覆盖的区域，WHAM 或 MBAR 就很难把整条 PMF 稳稳地拼起来。这时数学上虽然还能算，物理上却可能只是把几段彼此脱节的局部结果硬接在一起；更规范地说，就是窗口之间缺少足够的概率分布重叠。 umbrella 数据至少要看什么对于 umbrella，gmx wham 的常规检查项很重要： gmx wham -it tpr-files.dat -if pullf-files.dat -o pmf.xvg -hist hist.xvg -ac 这里至少要看三件事，而且最好把它们理解成“这条 PMF 能不能被顺畅接起来”的三个层次检查：相邻窗口直方图有没有足够重叠。这是最基础的一关。如果相邻窗口几乎不相交，那么后处理再漂亮，也只是把统计上彼此脱节的区间强行缝在一起，整条曲线会缺少真正的连接。自相关时间是不是已经大到接近单窗口长度。这一步是在问：单个窗口里到底有没有采到足够多的独立信息。如果一个窗口里有效独立样本本来就很少，那么它对整条 PMF 的贡献会既不稳定又很难估误差；此时窗口数量再多，也不等于每个窗口都真的达到局部统计稳定。不同窗口拼起来后有没有明显断链。所谓断链，不一定表现成肉眼可见的大跳跃，也可能表现为某些区间误差异常、重复不一致，或者对分析参数极其敏感。如果一条 PMF 只要稍微改一下 bin、平滑或截断方式就明显变样，那通常不是“图画风不同”，而是底层采样还不够扎实。如果某些窗口几乎没有重叠，或者窗口内采样时间和自相关时间是一个量级，那这套 PMF 就很难让人放心。 2D PMF 什么时候才值得做更关键的问题是：什么时候做 2D PMF 比做 1D 或条件分布更有信息增益。通常至少要同时满足三点：两个坐标都对应你真正关心的慢过程，这两个坐标在数据里都被实质性采样到了，而且在固定第一维时第二维不是“卡死”的，也就是没有被困在某个狭窄取值范围里。少了其中任何一条，二维分析带来的往往不是新信息，而是新噪声。如果不满足，2D 往往只会带来两个后果：图更花哨，误差更大。因为二维一上来就会遭遇“维数灾难”：格点数一多，平均到每个 bin 的有效样本数会迅速下降，空 bin 和噪声会明显增加。所以，在下面这些情况下，不做 2D 反而更专业：如果第二维只是辅助解释变量，如果第二维的采样范围很窄，如果第二维的混合时间明显比单窗口长度更长，或者你的核心结论本质上靠 1D 就已经成立，那么继续硬做 2D 往往只会增加图的复杂度，而不会提高结论的可信度。还有一个细节：有些序参量自带“几何熵” 如果你用的是角度、取向序参量，或者由角度变换得到的量，那么要小心一个问题：原始分布里可能混进了变量测度本身带来的偏置。最直观的例子就是方向相关变量。即使体系完全各向同性，某些取向序参量的概率分布也未必是均匀的。这意味着直接计算 [F(\xi) = -k_B T \ln P(\xi) + C] 得到的可能既包含真实相互作用偏好，也包含“随机几何本来就更容易落在某些值附近”的贡献。这时最常见的处理方式有两种：报告方式含义适合的讨论场景原始 PMF 包含变量测度带来的几何熵讨论状态占据、总体分布相对参考分布的超额自由能更突出相互作用导致的偏好讨论取向偏好、界面诱导效应这不是所有体系都必须做，但如果你的核心结论高度依赖“取向偏好”，那这个问题最好提前想清楚。否则读者看到的“最低谷”，有一部分可能只是变量定义自带的几何效应，而不全是体系相互作用本身。一个面向实战的工作流 graph TB A["拿到已有轨迹"] --> B["先分清：无偏数据还是有偏数据"] B --> C["确定目标：1D、局部2D、还是全局2D"] C --> D["检测平衡段：t0、g、Neff"] D --> E["检查跃迁、重复一致性、窗口重叠"] E --> F{"采样是否支持目标结论"} F -->|支持| G["报告 PMF，并给出误差与收敛证据"] F -->|部分支持| H["降级为局部 PMF、条件分布或状态占据"] F -->|不支持| I["补采样或重新设计增强采样方案"] 这个流程最重要的一步，不是“画图”，而是中间那个判断：采样能力到底支不支持你想说的话。真正成熟的分析，不是把所有图都画出来，而是知道哪些图值得认真解释，哪些图只能当辅助材料。结果该怎么讲，才更站得住脚一张自由能图要站得住脚，关键不在于修饰，而在于先把哪里可信、哪里还不能多说讲清楚：先说明平衡段和有效样本是怎么处理的。如果一开始就交代你已经剔除了前期非平衡部分，并且按相关性修正了有效样本数，读者会更容易接受后面的自由能结果，因为他知道这些曲线不是把所有帧不加区分地堆出来的。再说明 1D 结果为什么可信。如果主要状态之间已经出现多次往返跃迁，而且不同重复支持同一个结论，那么这时去讨论 1D PMF 的相对高低才更有底气，因为它背后有明确的动力学采样证据。谈到 2D 结果时主动限定范围。如果二维图只有一部分区域采样得比较扎实，那就只讨论那一部分，把它明确写成局部自由能地形或条件分布。这样做不会削弱文章，反而会让读者觉得你的判断更稳。对空白区和混合不足区保持克制。没有访问到的区域就不要硬解释，混合明显不足的方向也不要勉强下定量结论。这样做不是示弱，而是在保护结论的可信度。这种写法的价值不在于“更谨慎”，而在于把真正确定的部分讲扎实，把暂时不能确定的部分老老实实留白。最后总结 PMF 真正难的地方，从来不是软件命令，而是你是否对“这张图能回答什么问题”有清醒判断。无偏 MD 确实可以直接给自由能，但前提是轨迹分析段已经平稳、混合、可重复。如果连主要状态之间的往返都没有发生，那么图上看到的更多只是局部波动，而不是可以放心解释的全局自由能。只要数据里存在偏置、约束、umbrella 或多窗口拼接，就必须认真做重加权。这不是后处理里的可选美化步骤，而是把“被改过权重的采样”还原成目标分布所必需的物理操作。 2D PMF 的门槛显著高于 1D PMF，因为它要求两个坐标都被充分访问，而且在固定其中一维时另一维也要发生足够混合。很多 1D 看起来已经稳定的数据，一到二维分析就会暴露出空白区、断裂区和高噪声问题。没采到就是没采到，后处理不能替代真实采样。无论是更平滑的直方图、更复杂的重加权，还是更漂亮的二维彩图，都不能凭空恢复从未被访问过的状态或通道。当采样只支持局部结论时，老老实实报告局部结论，反而更有说服力。把结果写成局部 PMF、条件分布或状态占据，通常比强行宣称“全局自由能面已经收敛”更专业，也更经得起追问。如果把这套判断标准先建立起来，你之后无论做无偏 MD、umbrella、metadynamics，还是更复杂的多维自由能分析，很多技术决策都会清楚得多。

Molecular Dynamics · 2026-03-31

BioEmu能把蛋白动力学采样推多远？激酶成功，转运体与隐蔽口袋暴露边界

BioEmu能把蛋白动力学采样推多远？激酶成功，转运体与隐蔽口袋暴露边界本文信息标题：Accelerated sampling of protein dynamics using BioEmu augmented molecular simulation 作者：Soumendranath Bhakat，Eva-Maria Strauch 发表时间：2026年2月21日（bioRxiv 预印本）单位：AlloTec Bio Inc.；Washington University in St. Louis School of Medicine, Division of Infectious Diseases（美国密苏里州圣路易斯）引用格式（不加粗）：Bhakat, S., & Strauch, E.-M. (2026). Accelerated sampling of protein dynamics using BioEmu augmented molecular simulation. bioRxiv. https://doi.org/10.64898/2026.01.07.698041 源代码与相关工具： BioEmu：https://github.com/microsoft/bioemu H-packer：https://github.com/gvisani/hpacker CryoPhold：https://github.com/strauchlab/cryoPhold MDML：https://github.com/svats73/mdml/tree/main 摘要这篇预印本提出了一条把生成式AI构象生成、无偏分子动力学模拟和马尔可夫状态模型串起来的工作流。作者先用 BioEmu 生成蛋白质骨架构象，再补全侧链、做慢特征分析与聚类，最后从代表性结构出发跑多条短程 MD，并用 MSM 恢复符合玻尔兹曼权重的构象分布。在 CDK2 与 BRAF 这类丝氨酸、苏氨酸激酶上，这条路线确实能捕获 DFGin 到 DFGout 的稀有转变，还能解析 V600E 突变诱导的群体迁移。更进一步，作者把 BioEmu 与 Cryo-EM 重加权结合，用于构建 GlyT1 的全原子构象系综。不过，论文同样强调了一点：BioEmu 并不是普适的动力学万能钥匙。在 GlyT1 与 PlmII 这类强依赖侧链构象异质性的体系里，BioEmu 派生的初始系综并没有覆盖足够广的功能相关状态，后续 MD 也就难以“凭空补回来”。核心结论 BioEmu 加短程 MD在激酶体系里确实有效，能用累计 5 μs 的模拟捕获 DFGin 到 DFGout 转变，而对照的 rMSA-AF2 路线即使做到 8 μs 仍主要困在 DFGin。rMSA-AF2 仍然更受初始结构“覆盖率”的限制，而 BioEmu 给出的起始构象分布更开阔这套方法不只找到“终态”，还能够解析中间态、亚态和相对群体，例如 CDK2 激活环折叠、伸展状态与 BRAF 的 DFG-Phe 旋转异构体分布。需要注意的是，原文对 PheN 和 PheF1 的 $\chi_1$ 标注前后并不完全一致，因此这里不再硬性对应具体角度，而是保留“不同 DFG-Phe 亚态及其相对权重”这一层结论对 V600E BRAF，方法成功恢复了突变诱导的群体转移，包括 DFG-Phe 旋转异构体分布的重新分配，以及 αC 螺旋向更活性样构象偏移。文中的定量结果显示，V600E 会让 DFGin 宏观态内各亚态的群体比例发生明显变化，αC 螺旋的“in”状态（LGL）群体也随之增加把 BioEmu 与 Cryo-EM 贝叶斯重加权结合后，可以得到 GlyT1 的全原子先验系综，但采样仍然不完整，尤其是 inward 态与 Y62 翻转。关键缺陷在于：BioEmu v1.0 只显式生成骨架，侧链通过 H-packer 后补，因此很难完整覆盖 Y62 的 $\chi_1/\chi_2$ 二面角分布，而这个残基的翻转又是从 occluded 向 inward 态转变的必要条件。这里真正暴露出来的是方法边界：当动力学高度依赖侧链异质性时，只有骨架多样性往往不够，BioEmu v1.0 的优势会明显下降。背景蛋白质功能往往不是由单一静态结构决定的，而是由多个亚稳态之间的相对群体与相互转化共同决定。对药物研发来说，这一点尤其关键，因为变构口袋开放、激活环重排、跨膜转运开关、蛋白—蛋白相互作用界面暴露，很多都属于低概率但功能关键的稀有事件。这些构象转变直接调控蛋白的功能状态、配体结合亲和性和信号传导效率，因此理解蛋白的动力学景观对于精准药物设计至关重要。传统无偏 MD 最大的问题是时间尺度。很多功能相关转变隔着很高的自由能垒，常规模拟在可接受的算力预算内根本跨不过去。增强采样方法虽然被开发出来应对这一限制，但主要分为两类：沿着预定义集体变量施加偏置的方法（如伞形采样、metadynamics）和全局修改势能面的方法（如温度加速、副本交换）。这些方法虽然强大，但存在关键缺陷：它们高度依赖对反应坐标的先验知识，而且得到的群体分布不是内在物理的，需要仔细的重新加权才能恢复无偏热力学。近年来，基于 AlphaFold2 的方法（如 AF2-RAVE、AF2-MSM 和 CryoPhold）通过减少多序列比对来诱导构象多样性。rMSA-AF2 的核心思想是生成异质性的初始结构来启动下游的无偏 MD 模拟，从而加速构象探索。然而，这些方法的物理精修系综仍然强烈依赖于初始系综的“覆盖率”——如果初始覆盖没有捕捉到有意义的多样性，后续短 MD 模拟很难显著改善采样。这几年生成式 AI 进入分子模拟领域后，一个自然的问题是：能不能让 AI 先把构象空间“撒开”，再由物理模拟去恢复真实分布？BioEmu 走的是另一条路：它不是扰动静态结构预测器的输入，而是在分子动力学模拟数据上微调的生成式扩散模型，训练目标是重现统计上独立的平衡结构分布。这使得 BioEmu 相比 rMSA-AF2 能够实现更广的构象空间覆盖。不过，BioEmu 生成的系综本身并不直接给出可信的状态群体，因此仍然需要结合物理模拟和 MSM 来恢复热力学意义。这篇文章的思路正是如此。不过作者没有把 BioEmu 包装成万能替代品，而是很认真地比较了它在不同体系中的表现，最后给出的结论是：它在某些问题上很强，但也有非常具体、非常物理的失效场景。研究方法图1：BioEmu 种子分子模拟的整体工作流。整条路线可以概括为：先用生成式 AI 扩大初始构象覆盖，再用物理模拟和统计力学恢复热力学意义。下面按三个层次来看。第一层：构象生成与降维工作流从蛋白质序列开始，BioEmu v1.0 首先生成约 500 个仅含骨架的单体构象。这些构象不是简单的随机采样，而是基于分子动力学训练数据的扩散模型输出，因此天然包含了平衡态的构象多样性。随后，H-packer 负责补全侧链，把骨架系综转换成全原子表示。为了从500个构象中挑选出最具代表性的结构用于后续模拟，作者对 Cα–Cα 距离做慢特征分析（Slow Feature Analysis，SFA）。 SFA 是一种无监督降维算法，目标是找到变化最慢的特征方向，这些方向通常对应于系统最缓慢、最功能相关的集体运动。数学上，SFA 通过优化目标函数 $\min \Delta(\Omega(z)) = \mathbb{E}[(\dot{z})^2]$ 来提取慢特征，其中 $z$ 是提取的特征，$\dot{z}$ 是其时间导数。作者在前两个慢特征上进行 K-means 聚类（$K=50$），得到 50 个聚类中心。SFA 与聚类使用的是 MDML 软件包。对 GlyT1，作者再把这 50 个聚类中心作为 CryoPhold 的先验，用于针对三张 Cryo-EM 图的贝叶斯重加权。CryoPhold 是一个结合 AlphaFold2 与 Cryo-EM 数据的框架，通过贝叶斯重加权将生成式 AI 输出的构象系综与实验密度图对齐，从而得到既符合物理原理又与实验一致的构象分布。第二层：物理模拟与参数设置这 50 个代表性结构分别启动 100 ns 无偏 MD，总计 5 μs。分子模拟的具体参数设置如下：使用 Amber2022 中的 tleap 进行体系准备，蛋白力场是 AMBER ff14SB，水模型是 TIP3P 使用截角八面体水盒，蛋白到盒边界最小缓冲为 10 Å 先做受限最小化，再做全体系无约束最小化 Amber 拓扑通过 ACPYPE 转到 GROMACS 格式，后续模拟在 GROMACS 2022 中进行体系从 0 K 升温到 300 K，先进行 500 ps NVT 升温，再进行 200 ps NPT 平衡生产模拟为无偏 100 ns，轨迹每 10 ps 保存一次温控采用 velocity-rescale thermostat，压强控制采用 Parrinello–Rahman barostat 非键相互作用截断为 1.0 nm，长程静电采用 PME，含氢键长通过 LINCS 约束第三层：统计力学分析所有轨迹最后交给 MSM 统一整合，输出自由能面、宏观态群体和亚态分布。MSM 使用 PyEMMA 构建，激酶体系使用图2中的两个距离来区分 DFG 态，GlyT1 则使用能区分 inward、outward、occluded 的距离变量来建模。 BioEmu 提供了结构覆盖的广度，而 MSM 则通过统计力学分析赋予这些结构物理意义，计算每个状态的热力学权重和动力学连通性。如果只看 BioEmu 本身，它给出的是构象多样性，而不是严格的平衡分布。作者因此没有直接把 BioEmu 输出当答案，而是把它当作更聪明的初始构象提案器。后续的全原子 MD 提供局部物理松弛和能量精修，MSM 则通过构建转移概率矩阵，将多条短程轨迹整合成符合玻尔兹曼统计的群体分布与自由能面。具体而言，MSM 通过特征值分解得到长时间尺度的平衡分布，从而预测每个宏观态和亚态的相对群体。这一点也解释了为什么作者坚持用对照组。文章不是简单展示”BioEmu 能采到什么”，而是要比较：同样是短程无偏 MD，不同初始构象覆盖到底能把结果拉开多大差距。这种比较能够区分”方法本身的优势”和”初始条件的运气”。图1中的黑点投影直观展示了这一差异：BioEmu 的500个初始构象在两个慢特征坐标上的分布明显比 rMSA-AF2 的80个构象更分散，这为后续采样覆盖更广的构象空间奠定了基础。这里最要紧的一点是，BioEmu 的优势首先体现在起始构象分布更开阔。后续无偏 MD 当然提供了局部松弛，但如果初始系综本身没有覆盖到相关区域，短程轨迹通常很难自己翻过高自由能垒。从技术路线看，这篇工作的重点在于把生成式构象采样、全原子 MD 和 MSM 顺畅接起来，把结构多样性进一步落到可解释的热力学分布上。研究结果激酶测试：BioEmu 的最佳表现出现在 DFG 翻转问题上图2：MSM 加权自由能面解析 BRAF 与 CDK2 的 DFGin 到 DFGout 转变 A、C 是 BioEmu 种子模拟得到的自由能面，分别对应 apo BRAF 与 apo CDK2 B、D 是 rMSA-AF2 增强 MD 的对照结果黑点是初始构象系综投影，作者用它来直观看出初始覆盖范围 E 给出了 DFGin 与 DFGout 的代表性结构，salmon 色对应 DFGin，cyan 色对应 DFGout，重点看的是 DFG-Phe、Lys、Glu 的相对位置变化这组结果非常直观。BioEmu 种子模拟不只是跑出了更散的点云，而是真正在自由能面上覆盖到了从 DFGin 到 DFGout 的过渡区域。相比之下，rMSA-AF2 的初始系综和后续模拟几乎都局限在 DFGin 附近。更直接的比较来自采样结果本身：BioEmu 路线总模拟时间是 5 μs，对照路线是 8 μs，但后者仍没能真正跨出 DFGin 盆地。这说明在这类问题上，初始构象覆盖确实比单纯延长短程模拟更重要。 CDK2：不仅采到 DFGout，还采到了更细的活化相关异质性图3：BioEmu 增强模拟解析 apo CDK2 的 DFG-Phe、αC 螺旋与激活环亚态 A 是 DFGin 宏观态内不同 DFG-Phe 旋转异构体，以及 αC 螺旋 LGL／LGU 和激活环 ACin／ACout 的相对群体 B 把激活环距离投影到 DFG 相关的两个距离坐标上，显示 DFGout 更偏向折叠激活环 C 叠合了代表性 DFGin 与 DFGout 结构，突出显示DFG-Phe 翻转与激活环折叠图2说明 BioEmu 能把体系带到新的盆地，图3进一步表明：它还能解析盆地内部的细致异质性。图3B：激活环的延伸-折叠转移：图3B 将激活环距离（D145-CA–R157-CA）投影到区分 DFGin 和 DFGout 的两个距离坐标上。关键发现是：DFGout 态中折叠激活环（ACin）的群体明显高于 DFGin 态。这意味着从 DFGin 到 DFGout 的转变伴随着激活环从延伸态（ACout）向折叠态（ACin）的转移。激活环是激酶功能调控的核心区域，其折叠状态直接影响底物结合和催化活性。这种耦合变化揭示了激酶活性-非活性转变的层级化特征：DFG 基序的翻转与激活环的构象变化是协同发生的，共同构成了从活性样到非活性样构象转变的结构基础。在 apo CDK2 里，作者不仅看到了 DFGin 与 DFGout 两个终态，还看到了 DFGin 内部的不同 DFG-Phe 亚态，以及 αC 螺旋与激活环的耦合变化。尤其是从 DFGin 到 DFGout 时，激活环从 ACout 向 ACin 转移，这正是从更活性样构象走向更非活性样构象的重要标志。因此，BioEmu 的价值不只是“帮忙见到稀有终态”，还在于它能让后续 MSM 在更合理的初始覆盖上，恢复出与功能转换相关的层级化构象景观。 V600E BRAF：群体转移而不是单一结构切换，才是更难也更有用的测试图4：V600E 突变如何把 BRAF 系综推向更活性样构象左侧柱状图比较野生型与 V600E 在 DFGin 宏观态内的 PheN、PheF1、PheF2 群体中间柱状图比较 αC 螺旋在 LGL 与 LGU 两种构象下的群体变化右侧结构示意图标出 Phe595、Lys483、Glu501，并用蓝色与米色展示更偏 DFGin／DFGout 或 LGL／LGU 的构象差异在 DFGin 宏观态内部，V600E 会重新分配 DFG-Phe 侧链旋转异构体的群体，同时也让 αC 螺旋更偏向“in”状态，也就是 LGL。这里保留“群体重新分配”这一层结论，不再把单个亚态之间的对应关系写得过死。这很重要，因为突变激活常常不是把蛋白从一个完全静止的构象“掰”到另一个，而是让整个系综在多个亚态之间重新分配权重。这篇文章的一个亮点就在于，它确实把这种“群体转移”用 MSM 权重给量化了出来，而不只是画一张构象示意图就结束。把 Cryo-EM 和 BioEmu 接起来：GlyT1 是更接近真实应用场景的测试图5：BioEmu 先验系综经 CryoPhold贝叶斯重加权后，得到 GlyT1 的全原子构象集合左侧是原始 BioEmu 系综和 SFA 聚类后的 50 个代表性结构右上是三张 Cryo-EM 参考图，对应 inward、occluded 与 outward 三种状态，分辨率分别约为 3.35 Å、2.58 Å 和 3.22 Å 右下是重加权后的全原子 CryoPhold 系综，橙色、青绿色、紫色分别对应 inward、occluded、outward 在 GlyT1 这部分，生成式先验、Cryo-EM 约束和后续 MD 被接到了一起。这里不是直接拿 BioEmu 输出做解释，而是先通过 Cryo-EM 参考图做贝叶斯重加权，得到更接近实验的全原子后验系综。从方法设计上看，这一步把 BioEmu 的广覆盖起点、Cryo-EM 的状态约束和 CryoPhold 的重加权自然接了起来。但问题也从这里开始：GlyT1 并没有被完全采开图6：在 GlyT1 上，BioEmu 系综的覆盖不足开始暴露出来 A 标出 GlyT1 的关键热点残基，尤其是 Y62、W322、R71、D474，它们共同定义了状态转变相关的局部几何 B 是 BioEmu 种子模拟在 TM1–TM6 与 TM1–TM10 距离空间中的采样结果 C 是 rMSA-AF2 种子模拟的对照，明显覆盖到更多 inward、occluded、outward 区域 D、E 则比较了 Y62 的 $\chi_1/\chi_2$ 二面角采样，显示 BioEmu 路线对 Y62 翻转的覆盖明显不足图6 对应的结论很明确：BioEmu 并不是在所有体系里都比 rMSA-AF2 更强。 GlyT1 的三种构象态定义：GlyT1 是一种膜转运蛋白，通过交替访问机制将甘氨酸从细胞外间隙转运到细胞内。这个过程涉及三种主要的构象态： Occluded（封闭态）：底物结合位点被封闭，既不向细胞外开放，也不向细胞质开放，通常结合甘氨酸 Inward（向内态）：底物结合位点向细胞质侧开放，允许甘氨酸释放到细胞内，通常结合抑制剂 ALX-5407 Outward（向外态）：底物结合位点向细胞外间隙开放，允许甘氨酸结合，通常结合抑制剂 SSR-504734 和 PF-03463275 这三种态之间的转变依赖于跨膜螺旋（TM1、TM6、TM10）的大尺度重排，以及关键残基 Y62 的侧链翻转。Y62 就像一个“盖子”，它的翻转是从 occluded 向 inward 态转变的必要条件。在 GlyT1 中，作者发现 CryoEmu 增强模拟虽然能较好采到 outward 与 occluded，但对 inward 态以及 Y62 翻转的恢复并不充分。这个结果和前面激酶体系的成功形成鲜明对比，也说明 GlyT1 的关键动力学更依赖局部残基闸门与侧链重排，而不只是主链骨架的大尺度移动。也就是说，对某些跨膜转运体来说，单纯把骨架铺得更开并不够。真正控制状态切换的，可能是像 Y62 这样的局部“盖子”残基，而这恰恰是 BioEmu v1.0 不擅长的地方。 PlmII：隐蔽口袋开启再次证明，侧链问题绕不过去图7：在 PlmII 的隐蔽口袋开启问题上，rMSA-AF2 反而明显优于 BioEmu A 是 BioEmu 增强模拟得到的 Trp41 $\chi_1/\chi_2$ 自由能面，基本只覆盖主态 B 是 rMSA-AF2 的对照结果，可以看到更多离散盆地，其中圈出的区域对应隐蔽口袋开启相关状态 C 给出 Trp41 翻转的结构示意，说明这个侧链运动与口袋暴露直接相关如果说 GlyT1 已经让人开始怀疑“骨架覆盖是否足够”，那 PlmII 几乎就是把这个问题钉死了。作者明确指出，PlmII 的隐蔽口袋开启依赖 Trp41 侧链翻转，而 BioEmu 生成的初始系综在这件事上的构象多样性太有限，所以后续 MD 也很难补救。一个核心区别是，激酶 DFG 转变更多体现为主链与局部二级结构层面的构象重排，而 GlyT1 的 Y62、PlmII 的 Trp41 都属于关键侧链闸门残基。BioEmu v1.0 只显式生成骨架，侧链是后补的，所以一旦功能动力学高度依赖侧链异质性，起始覆盖就会受限。这一点也是全文里最重要的负面结论之一：对由关键侧链翻转主导的构象开关，BioEmu v1.0 的瓶颈不在后续采样，而在起跑线就没有把相关侧链异质性准备好。这篇文章真正回答的问题：什么时候该用 BioEmu，什么时候要谨慎综合激酶、GlyT1 和 PlmII 三类体系，这篇文章给出的不是一个简单的“好用／不好用”结论，而是一个更细的经验判断。在 BRAF 和 CDK2 这类激酶上，BioEmu 的构象覆盖明显更广；但在 GlyT1 与 PlmII 上，rMSA-AF2 反而给出了更好的功能相关采样。作者真正想说明的是：初始系综的质量必须和问题类型匹配。更适合 BioEmu 的情形通常有这些特征：关键转变主要表现为骨架层面的宏观构象重排稀有态虽然难采，但可以由较广的主链分布触达后续短程 MD 加 MSM 足以把这些状态重新赋予物理权重相对不利的情形则包括：关键动力学由局部侧链翻转控制功能相关状态依赖少数残基构象的精细组合起始系综如果没有覆盖这些局部侧链模式，后续无偏 MD 很难在短时间内补齐这也是作者为什么会在摘要和讨论里都强调，BioEmu 更像是一个很强的构象覆盖工具，而不是自动恢复全部真实动力学的黑箱。关键结论与批判性总结这篇文章最重要的价值这篇文章没有只展示 BioEmu 在激酶上的成功，而是把 GlyT1 和 PlmII 这两个边界案例也放了进来。这样一来，方法什么时候有效、什么时候要谨慎，就说得更清楚了。主要优点成功案例很有说服力：BRAF 与 CDK2 的 DFG 转变确实被采到了，而且对照组差距明显不只看终态：文章分析了中间态、亚态、群体分布和突变诱导的群体转移，信息密度很高工作流具有可操作性：BioEmu、H-packer、MDML、GROMACS、PyEMMA、CryoPhold 串起来后，路线相对明确对失败模式有清楚归因：作者把问题聚焦到侧链异质性不足，这个解释既具体又有物理直觉局限性 BioEmu v1.0 不显式建模侧链，这会直接限制对 Y62、Trp41 这类关键残基翻转的覆盖当前流程主要面向单体蛋白，对蛋白—蛋白或蛋白—配体体系的适用性仍有限虽然结果与已知机制一致，但很多系统仍缺少更直接的实验定量验证成败在很大程度上取决于初始系综是否覆盖到真正相关的局部自由度，这意味着方法仍然需要系统特异性判断对后续工作的启发这项工作对药物发现最直接的启发：如果目标体系的关键动力学主要由骨架级别的大构象转变主导，BioEmu 这类模型可以显著提高稀有态触达率；但如果问题核心是局部侧链翻转、闸门残基摆动或隐蔽口袋开启，就不能指望只靠骨架多样性解决问题，必须考虑更强的侧链建模或额外实验约束如果未来的生成模型能更好处理全原子级别的侧链异质性，这条路线的适用范围会明显扩大把 Cryo-EM、DEER、FRET 等实验信息与生成模型输出做更紧的耦合，可能是提高可靠性的关键方向对于隐蔽口袋和局部闸门问题，后续方法很可能需要从“只学骨架”走向同时学习骨架与关键侧链坐标总体来看，BioEmu 确实能显著改善一类问题，但它的边界也把下一步最需要补的地方暴露了出来。

Molecular Dynamics · 2026-03-18

底物构象转换决定P450酶的立体选择性：分子动力学揭示二聚化反应的精妙机制

底物构象转换决定P450酶的立体选择性：分子动力学揭示二聚化反应的精妙机制本文信息标题：Substrate Conformational Switch Enables the Stereoselective Dimerization in P450 NascB: Insights from Molecular Dynamics Simulations and Quantum Mechanical/Molecular Mechanical Calculations 作者：Tai-Ping Zhou, Jianqiang Feng, Yongchao Wang, Shengying Li,* and Binju Wang* 发表时间：2024年4月9日单位：厦门大学固体表面物理化学国家重点实验室、理论与计算化学福建省重点实验室，中国；山东大学微生物技术国家重点实验室，中国期刊：JACS Au 2024, 4, 1591−1604 DOI：https://doi.org/10.1021/jacsau.4c00075 引用格式：Zhou, T.-P.; Feng, J.; Wang, Y.; Li, S.; Wang, B. Substrate Conformational Switch Enables the Stereoselective Dimerization in P450 NascB: Insights from Molecular Dynamics Simulations and Quantum Mechanical/Molecular Mechanical Calculations. JACS Au 2024, 4, 1591−1604. 摘要 P450 NascB催化cyclo-(L-tryptophan-L-proline) (1)的偶联反应，通过分子内C−N键形成和分子间C−C偶联生成(−)-naseseazine C (2)。透彻理解其催化机制对于工程化或设计P450催化的C−N二聚化反应至关重要。通过结合MD模拟、QM/MM计算和增强采样方法，我们系统评估了近期研究提出的多种可能机制。研究表明，最有利的反应路径始于从N7−H向Cpd I的氢原子转移。随后，底物自由基发生关键的构象转换，从底物1中N7的Re-face转换到Si-face。底物1的Si-face构象通过蛋白质环境和吲哚环与血红素卟啉之间的π−π堆积相互作用得到稳定。接下来，底物1自由基与底物2之间通过自由基攻击机制发生分子间C3−C6’键形成。底物1自由基的构象转换不仅降低了分子间C3−C6’键形成的能垒，还产生了与实验观察一致的正确立体选择性。此外，我们评估了铁-超氧物种的反应性，表明其活性不足以引发从底物吲哚NH基团的氢原子夺取。我们的模拟提供了关于P450酶如何精确控制分子内C−N环化和分子间C−C偶联的全面机制见解。当前发现与现有实验数据一致，强调了底物动力学在控制P450催化中的关键作用。核心结论构象转换是关键：底物自由基从Re-face到Si-face的构象转换（能垒仅6.3 kcal/mol）是实现正确立体选择性的决定性步骤反应路径确定：最有利路径为N7−H氢原子转移到Cpd I（pathway B），而非N1−H转移（pathway A）关键不在首步最低，而在整条路径可行：虽然N1−H夺氢的首步能垒更低（13.8 kcal/mol），但后续步骤全部陷入高能垒死端；N7−H路径首步能垒为19.0 kcal/mol，却能沿着可持续推进的反应坐标走完整个二聚化过程蛋白质环境至关重要：Val236、Lys289等残基通过氢键和疏水相互作用稳定Si-face构象，π−π堆积进一步稳定了构象铁-超氧物种不参与：ferric-superoxide物种的反应性不足（能垒超过26.0 kcal/mol），无法引发反应背景色氨酸连接的二聚二酮哌嗪（DKP）衍生物是一类具有独特结构架构和广泛生物活性的天然产物，展现出抗癌、抗肿瘤、抗病毒和神经保护活性。细胞色素P450酶（CYPs），作为一个依赖血红素的酶超家族，已被证明在DKPs的生物合成中起到关键作用。近期，两种同源P450酶NascB和NznB被鉴定可催化cyclo-(L-tryptophan-L-proline) (1)的二聚化，分别生成(−)-naseseazine C (2)和(+)-naseseazine B (3)。这些转化涉及分子内C−N偶联和分子间C−C偶联，这是P450催化中独特的反应类型。 Scheme 1：NascB和NznB催化的二聚化反应。NascB催化生成(−)-naseseazine C (2)，而同源酶NznB生成(+)-naseseazine B (3)，两者具有相反的立体化学。 Qu及其合作者表征了另一种同源酶NasF5053，它对(1)表现出高催化活性。值得注意的是，双突变体S284A-V288A主要生成化合物(2)。该突变体与天然底物复合物的高分辨率晶体结构（1.68 Å）显示，活性位点被两个(1)分子占据，每个占据一个独立的口袋。底物1通过一系列氢键网络（来自K289残基）固定，而底物2则通过G286和E314稳定。图1：NasF5053的晶体结构（PDB ID: 6VZB）与两个底物(1)的复合物，右侧框显示活性位点的放大视图。关键氢键用虚线表示，距离以Å为单位。可以看到底物1的吲哚N1−H接近血红素Fe（约2.96 Å），而底物2位于另一个口袋，通过Gly286和Glu314稳定。关键科学问题尽管前期研究提供了机制见解，但P450催化DKPs生物合成的分子机制尚未完全阐明，特别是关于以下几个关键问题：氢原子夺取的位点：从吲哚N1−H（pathway A）还是从二酮哌嗪N7−H（pathway B）？晶体结构显示N1−H更接近Cpd I，但MD模拟表明底物可能重新定位使N7−H靠近立体选择性的控制：如何确保N7自由基从Si-face攻击C2=C3双键，生成正确的S构型？蛋白质环境的作用：蛋白质环境如何影响区域选择性和立体选择性的C−N和C−C偶联？构象动力学的重要性：底物和中间体的构象变化在催化循环中起什么作用？这些问题的解答需要超越静态晶体结构和气相DFT模型计算，必须结合蛋白质环境、动力学采样和精确的QM/MM能量计算。创新点多尺度计算策略：结合200 ns MD模拟、QM/MM几何优化、umbrella sampling增强采样，系统探索了反应机制蛋白质环境的显式处理：显式纳入了双底物结合口袋、Val236与Lys289等关键氢键位点，以及底物与血红素之间的π−π堆积，从而避免仅凭气相或静态结构判断机制构象转换的发现：揭示了底物自由基Re-face到Si-face的构象转换是控制立体选择性的关键步骤，这一机制在之前研究中被忽略机制的定量比较：通过精确的能垒计算排除了多种可能路径，确定了最有利的反应机制铁-超氧物种的评估：证明了ferric-superoxide物种不参与反应，排除了一种可能的氧化剂研究内容针对上述科学问题，本研究系统评估了两种可能的反应机制： Scheme 2：P450 NascB催化二聚化的两种可能机制。Pathway A：从吲哚N1−H夺取氢原子，然后进行分子内C−N环化和分子间C−C偶联；Pathway B：从二酮哌嗪N7−H夺取氢原子，随后的反应路径类似。本研究通过QM/MM计算评估了这两条路径的可行性。计算方法概述本研究采用多层次计算策略，核心设置可整理为下表：模块具体设置在本文中的作用 MD模拟基于PDB 6VZB建模，补全缺失残基并构建Cpd I；蛋白质采用AMBER ff14SB，底物采用GAFF；进行3次独立的200 ns NPT生产模拟识别底物1的两种结合模式，并判断N1−H与N7−H哪一个更可能靠近氧化中心 QM/MM计算 QM区包含血红素、Cpd I氧原子、两个底物与近端半胱氨酸模型；几何优化采用UB3LYP-D3BJ/def2-SVP，单点能采用def2-TZVP；MM区包括蛋白质、离子与12 Å内水分子计算各条反应路径的能垒，比较N1−H与N7−H起始机制的可行性 Umbrella sampling 以C2−C3−C4−C5二面角为CV，范围从−90.6°到110.4°；相邻窗口间隔3°；每窗口10 ns；力常数为200 kcal/mol/Å；用WHAM重建PMF 定量评估自由基从Re-face切换到Si-face的构象自由能面图2：Cpd I与底物的QM/MM优化活性位点结构。（a）Conf-a构象中，底物1的吲哚N1−H与Cpd I形成氢键（1.91 Å），并主要由Lys289稳定；（b）Conf-b构象中，约70 ns MD后底物1重新定位，转而由DKP N7−H与铁氧形成氢键（2.00 Å），并由Val236稳定。两种构象里，底物2的位置变化都较小。底物结合模式：两种关键构象三次独立的200 ns MD模拟揭示了底物1（Sub1）的两种代表性结合模式： Conf-a（0-70 ns）：吲哚N1−H与Cpd I形成氢键（类似晶体结构）底物1通过Lys289的氢键相互作用稳定这种构象相对不稳定，约70 ns后转变为Conf-b Conf-b（70-200 ns）： DKP N7−H与铁氧（FeIV=O）形成氢键底物1通过Val236的氢键相互作用稳定底物2（Sub2）位置变化较小这种构象更稳定，暗示N7−H可能是氢原子夺取的位点 Pathway A：吲哚N1−H氢夺取（被排除）基于Conf-a构象，我们首先探索了从吲哚N1−H夺取氢原子的pathway A。图3：Pathway A的QM/MM能量曲线。从N1−H的氢原子夺取能垒为13.8 kcal/mol，生成吲哚自由基中间体Int1a（相对于RCa高3.1 kcal/mol）。 HAA步骤（RCa → TS1a → Int1a）：能垒：13.8 kcal/mol 产物Int1a能量：比RCa高3.1 kcal/mol 自旋布居分析：自由基离域在吲哚环上，C3（−0.43）和N1（−0.22）上有显著布居然而，从Int1a出发的所有可能路径都动力学上不可行： OH反弹到N1：能垒超过30.0 kcal/mol OH反弹到C3：能垒超过40.0 kcal/mol（底物定位不利）从N7−H夺取氢生成双自由基：能垒超过50.0 kcal/mol 与Sub2的C3−C6’键形成：能垒超过50.0 kcal/mol 质子化方案也不可行：吲哚自由基的$pK_a$比实验环境（约7.5）低约4.8个单位质子化是吸热的（6.55 kcal/mol） QM计算显示质子化吲哚自由基在所有反应中都有高能垒结论：Pathway A从N1−H夺取氢原子会生成死端中间体Int1a，无法进行后续反应，因此被排除。 Pathway B：二酮哌嗪N7−H氢夺取（最优机制）基于Conf-b构象，我们探索了从DKP N7−H夺取氢原子的pathway B。图4：Pathway B的QM/MM能量曲线。从N7−H的氢原子夺取（TS1b，19.0 kcal/mol）生成二酮哌嗪自由基Int1b。从Re-face的直接C2−N7环化（TS2b，23.4 kcal/mol）生成R-构型的Int2b，但后续C3−C6’偶联能垒过高（40.0 kcal/mol），表明Re-face路径不可行。图5：Pathway B关键物种的QM/MM优化结构。显示了RCb、TS1b、Int1b、TS2b和Int2b的几何结构，标注了关键原子的自旋布居和键长（单位：Å）。为清晰起见，只显示了相关的氢原子。第1步：HAA从N7−H开始（RCb → TS1b → Int1b）：能垒：19.0 kcal/mol 产物Int1b能量：比RCb高16.5 kcal/mol 自旋布居分析：一个电子从Sub1转移到卟啉基团，形成Fe(IV)−OH状态第2步：Re-face直接由N7进攻C2（Int1b → TS2b → Int2b）：能垒：23.4 kcal/mol（相对于RCb）产物Int2b：C2保持R构型（错误立体化学）关键问题：从Int2b出发的C3−C6’偶联能垒为40.0 kcal/mol，过高！ Re-face路径失败的原因： Int2b中N1−C2−N7−C5二面角为−131.3°，新形成的五元环有显著环张力 C3−C6’距离较远，不利于偶联两条主路径的关键信息对照表路径起始夺氢位点首步能垒中间体命运是否能完成后续反应结论 Pathway A 吲哚N1−H 13.8 kcal/mol 生成吲哚自由基Int1a 否。OH rebound、双自由基形成、C3−C6’偶联都需要30–50 kcal/mol以上高能垒首步虽低，但整体是死路 Pathway B（Re-face直走） DKP N7−H 19.0 kcal/mol 生成N7中心自由基Int1b 部分可行，但直接Re-face关环后得到错误立体化学，且C3−C6’偶联高达40.0 kcal/mol 需要先构象切换，不能直接反应 Pathway B（Si-face切换后） DKP N7−H 19.0 kcal/mol，随后经6.3 kcal/mol构象转换形成Si-face自由基Int1c 是。N7进攻C2、C3−C6’偶联、再芳构化三步都可顺利推进全文支持的最优机制关键发现：Re到Si的构象转换受先前研究启发，我们探索了二酮哌嗪自由基的柔性构象，并通过umbrella sampling计算C2−C3−C4−C5二面角旋转对应的PMF：图6：Re构象到Si构象的自由能面与代表性结构。（a）PMF曲线以C2−C3−C4−C5二面角为反应坐标，显示旋转能垒仅为6.3 kcal/mol，且Si构象比Re构象低0.4 kcal/mol；（b）Si构象的活性位点结构中，二面角增大到101.0°，使N7可以从Si-face进攻C2，且该自由基构象由Val236、Lys289及与血红素的π−π堆积共同稳定。关键发现：构象转换能垒很低：仅6.3 kcal/mol Si-face构象更稳定：比Re-face低0.4 kcal/mol 蛋白质环境的作用： Val236和Lys289通过氢键稳定吲哚环与血红素卟啉之间的π−π堆积相互作用（距离约3.3 Å）非键相互作用能：Si-face为−53.5 kcal/mol，Re-face为−55.1 kcal/mol（相当）构象转换的选择性：只有自由基能够轻易转换，未反应的底物1在两种结合模式下都难以转换（热力学不利） 200 ns无约束MD验证了Si-face构象的稳定性（RMSD < 1.5 Å）。从Si-face构象的完整反应路径图7：从“Si”构象出发的Pathway B完整能量曲线。包括N7从Si-face攻击C2（TS2c，21.8 kcal/mol），生成S-构型的吡咯并吲哚啉自由基Int2c；随后C3−C6’偶联（TS3c，23.0 kcal/mol）和最后的再芳构化（TS4c，20.9 kcal/mol）。从Si-face出发的反应步骤：步骤2：N7从Si-face攻击C2（Int1c → TS2c → Int2c）：能垒：21.8 kcal/mol（相对于RCb） TS2c中C2−N7距离缩短到2.26 Å（从Int1c的3.19 Å）产物Int2c：C2为S构型（正确立体化学！） Int2c能量：比RCb高2.4 kcal/mol 自旋布居：C3位点携带最多自旋布居（−0.62），有利于后续C3−C6’偶联步骤3：发生分子间C3−C6’偶联（Int2c → TS3c → Int3c）：能垒：23.0 kcal/mol（相对于RCb）机制：自由基介导，而非阳离子Friedel-Crafts机制 C3−C6’距离：3.50 Å（远短于C3−C7′的4.84 Å） C3−C7′偶联的能垒：30.7 kcal/mol（更高，与实验一致） Int3c能量：比RCb高14.7 kcal/mol 步骤4：完成再芳构化（Int3c → TS4c → Int4c）：从C6’−H到Cpd II的HAT 能垒：20.9 kcal/mol（相对于RCb）最终产物Int4c：比RCb低53.9 kcal/mol（放热）图8：Si-face路径关键物种的QM/MM结构。显示了构象转换后的Int1c（二面角103.2°）、N7攻击C2的TS2c、吡咯并吲哚啉自由基Int2c（C3上自旋−0.62）、C3−C6’偶联的TS3c、以及最终产物Int4c的几何结构和自旋布居。 Si-face路径的优势： Int2c中C3−C4−N7−C7二面角为174.4°，环张力显著降低 C3−C6’距离更短，几何排布也明显优于Re-face关环后得到的Int2b π−π堆积相互作用进一步稳定Int2c 正确的S立体化学与实验完全一致 O-取代底物为何无反应性 Qu及其合作者测试了一种O-取代底物（O-sub）类似物，但未观察到反应性。为理解这一实验观察，我们进行了200 ns MD模拟。图9：O-取代底物在活性位点中的不利结合模式。（a）NascB中测试的O-取代底物类似物；（b）MD模拟得到的Cpd I与O-sub代表性结构。可以看到N7−H远离Cpd I，平均距离约10 Å，且取代氧原子在活性中心不形成氢键。 MD结果：体系在60 ns后达到稳定收敛（RMSD分析） O-sub的N7−H远离Cpd I，平均距离约10 Å 取代的氧原子不形成任何氢键结论：O-底物的不适当结合构象使其极不利于从N7−H引发HAA，解释了其无反应性铁-超氧物种的反应性评估最近研究表明铁-超氧中间体可能作为氧化剂促进环状二肽的二聚化。我们评估了ferric-superoxide (FeIII−OO•−)介导的HAA可行性。图10：ferric-superoxide物种的结构、反应性与键解离能比较。（a）不同自旋态的QM/MM优化结构中，OSS、3和5分别代表开壳层单重态、三重态和五重态，且基态为OSS；Fe上的自旋布居为−1.00，O10和O11上分别为0.54和0.48。（b）从OSSRCc出发的HAA扫描曲线显示，N1−H夺氢能垒超过26.0 kcal/mol。（c）键解离能比较表明，N1−H1键为89.6 kcal/mol，FeIII−OOH的O−H键为69.4 kcal/mol，而Cpd II的O−H键为91.1 kcal/mol。关键发现：基态为开壳层单重态（OSS）从吲哚N1−H的HAA能垒超过26.0 kcal/mol 从DKP N7−H的HAA能垒超过29.9 kcal/mol（N7−H键更强） FeIII−OOH的O−H BDE比Cpd II低21.7 kcal/mol 结论：ferric-superoxide物种缺乏足够的反应性引发HAA，不参与反应 Q&A Q1：为什么之前的研究更容易支持N1−H路径，而本文最终支持N7−H路径？ A1：关键差异在于是否把蛋白质环境与底物动力学真正纳入机制判断。早期研究容易被晶体结构中的静态几何关系吸引，因为在初始构象里N1−H更靠近血红素铁，因此直观上更像优先被夺氢的位点。但本文通过长时间MD显示，底物1会在活性位点内重排，形成更稳定的Conf-b，使DKP上的N7−H靠近Cpd I。更重要的是，本文并不只比较“首步HAA谁更低”，而是比较整条反应路径是否能走通：N1−H路径虽然首步较低，却通向死端；N7−H路径虽然首步更高，却能在构象转换后完成正确立体选择性的二聚化。 Q2：构象转换在多大程度上降低了能垒？ A2：构象转换对能垒的影响是决定性的。从Re-face直接进行的C3−C6’偶联能垒为40.0 kcal/mol，而从Si-face进行同样反应的能垒为23.0 kcal/mol，降低了17 kcal/mol。更重要的是，Si-face路径形成的Int2c能量明显低于Re-face得到的Int2b，这主要是因为Si-face构象显著释放了五元环的环张力，并且得益于π−π堆积带来的额外稳定。 Q3：为什么底物必须先形成自由基才能进行构象转换？ A3：MD模拟表明，未反应的底物1在Conf-a与Conf-b两种结合模式下都不容易自发完成这一翻转；相反，先形成自由基，再进行构象切换才是更可行的路径。可以直观理解为：自由基态的电子结构与构象柔性都更适合重新排布，因此更容易在蛋白口袋中找到能够通向Si-face进攻的几何构型。 Q4：这种机制对P450工程有什么启示？ A4：本文给P450工程的启示主要有四点：1. 不能只盯着静态晶体结构，因为真正决定反应的是底物在口袋中的动态重排；2. π−π堆积可以被用来引导自由基构象，从而间接控制后续偶联几何；3. Val236与Lys289附近的氢键网络很关键，这些位点值得作为突变设计的优先目标；4. 新底物设计应优先关注DKP部分的定位，因为真正起始反应的是N7−H而不是N1−H。关键结论与批判性总结科学意义反应起点被重新界定：本文支持由DKP的N7−H而非吲哚N1−H启动HAA，这一点直接改变了对NascB初始氧化步骤的理解立体选择性的来源被具体化：决定产物手性的并不是单一步骤的局部几何，而是自由基先翻转、再关环、再偶联的整套动态过程 C3−C6’偶联机理被限定为自由基路径：作者明确排除了更直观但不成立的阳离子Friedel−Crafts式解释铁-超氧物种的角色被弱化：无论从N1−H还是N7−H出发，ferric-superoxide都显示出不足以启动反应的反应性潜在局限性证据主体仍以计算为主：本文的说服力来自MD、QM/MM与增强采样的相互印证，但关键构象稳定作用本身仍主要由计算结果支撑结论聚焦于NascB单一体系：文章证明了该酶中Re→Si切换的重要性，但这一机制能否直接外推到NznB或其他P450二聚酶，本文并未展开未来研究方向定点突变验证：优先验证Val236、Lys289以及与血红素堆积相关位点对Si构象稳定的贡献同源酶比较：将同样的分析框架用于NznB，有助于解释为何同类底物会给出相反立体化学产物底物与酶工程：若要设计新的P450 C−N二聚化反应，这项工作提示应优先调控底物自由基的可翻转性与口袋中的几何约束

Molecular Dynamics · 2026-03-17

解锁PLP酶的隐藏超能力：罕见VGQ中间体实现酶催化[3+2]环化反应

解锁PLP酶的隐藏超能力：罕见VGQ中间体实现酶催化[3+2]环化反应本文信息标题：吡哆醛-5’-磷酸依赖酶催化的脱羧环化反应作者：Weiwei Chai, Shenggan Luo（共同第一作者）, Wenhui Xi, Xu He, Ting Zhang, Yike Zou（通讯作者）, Yang Hai（通讯作者）收稿/修回/接收：2025年11月26日 / 2026年2月19日 / 2026年2月24日单位：加州大学圣塔芭芭拉分校化学与生物化学系（美国）上海交通大学药学院、张江高等研究院（中国）期刊：Journal of the American Chemical Society (JACS) 引用格式：Chai, W., Luo, S., Xi, W., He, X., Zhang, T., Zou, Y., & Hai, Y. (2026). Pyridoxal 5′-Phosphate-Dependent Enzymatic Decarboxylative Annulation. Journal of the American Chemical Society. https://doi.org/10.1021/jacs.5c20979 摘要吡哆醛-5′-磷酸（PLP）依赖酶是自然界中最通用的生物催化剂之一，但涉及Cγ-亲核性的乙烯基甘氨酸醌式中间体的转化却极其罕见。本文通过重新编程天然催化脱羧Claisen缩合反应的PLP依赖酶SphA，建立了一个人工生物催化平台，实现了乙烯基氨基丙二酸（VAM）的简便脱羧生成VGQ中间体，并利用该高能中间体的反应性，实现了VAM与缺电子烯烃之间的脱羧[3+2]环化反应。晶体学、计算和突变研究揭示了这一非天然转化背后的关键机理特征。研究结果证明了VGQ中间体的潜在[3+2]环化能力，扩展了PLP依赖酶的催化谱系，为酶法构建复杂碳环结构确立了新策略。核心结论实现VGQ介导的[3+2]环化：通过酶重新编程，利用罕见的Cγ-亲核性VGQ中间体实现了非天然的脱羧[3+2]环化反应，合成了具有三个连续立体中心的环戊烷基α,α-二取代氨基酸创新性脱羧路线：开发了VAM的α-脱羧路线生成VGQ，比天然系统中的SAM γ-消除路线更经济、操作更简单高效定向进化：通过迭代饱和突变策略，获得四重突变体PvSphAV4，总转化数提升超过30倍立体选择性控制：三氟甲基烯酮底物呈现严格的endo选择性，而硝基烯烃底物虽然非对映选择性降低，但对映选择性始终优异（ee>99%）背景 PLP酶：蛋白质改造的“瑞士军刀” 吡哆醛-5′-磷酸（PLP）依赖酶是自然界中最通用的生物催化剂家族之一，它们能够催化氨基酸的多样化转化，包括转氨、脱羧、消旋、β-消除和α-取代等反应。这种惊人的催化多功能性源于它们能够访问并选择性稳定不同的PLP结合中间体，并通过精确控制这些中间体的质子化状态来调控它们的电子极性（即烯胺vs亚胺特征），最终决定反应轨迹和位点选择性。 PLP酶反应的中间体调控 PLP酶通过控制中间体的电子特性实现多样化的氨基酸转化：富电子的醌式中间体：倾向于Cα-亲核功能化，如Claisen缩合、aldol加成、Mannich反应、亲核取代（SN2）和光生物催化自由基反应亲电的酮亚胺中间体：通过在醌式物种C4′位置质子化产生，典型功能是转氨酶活性 Cβ功能化：可通过色氨酸合成酶中的亲电氨基丙烯酸酯中间体或天冬氨酸脱羧酶UstD中的亲电烯胺中间体进行 Cγ功能化：大多数已知的γ-取代反应通过Cγ-亲电的乙烯基甘氨酸酮亚胺（VGK）中间体进行 VGQ中间体的独特性和挑战 Cγ-亲核的乙烯基甘氨酸醌式（VGQ）中间体仅在altemicidin生物合成途径中的SbzP及其同源物中被发现，它们催化VGQ与β-烟酰胺腺嘌呤二核苷酸（NAD）的环化反应。VGQ化学的罕见性源于其独特的电子结构施加的机制约束：单键形成的局限：在其Cγ中心上的单键形成事件不可避免地导致脱氨的酮酸产物氨基酸产物的双键需求：氨基酸产物的形成需要串联的成键催化序列内在的环化优势：虽然这一要求限制了VGQ在简单γ-取代反应中的实用性，但赋予了其作为内置环化试剂的独特优势，能够在单次催化操作内形成两个键关键科学问题 VGQ中间体的内在反应性：VGQ中间体是否具有内在的[3+2]环化反应性，能够用于构建碳环氨基酸？ VGQ的人工生成策略：如何在非天然酶中高效生成VGQ中间体？立体选择性控制：如何实现[3+2]环化反应的高立体选择性控制？酶工程策略：如何通过定向进化提高酶对非天然反应的催化效率？创新点图1：PLP依赖的氨基酸转化类型与罕见的VGQ中间体。上方依次展示Cα、Cβ和Cγ功能化的典型通路，紫色与蓝色圆点区分亲电/亲核反应中心；下方给出VGK与VGQ中间体及其“内置环化试剂”潜力，强调VGQ的罕见性与潜在环化反应性。概念创新：证明了VGQ中间体的内在[3+2]环化能力，并将其应用于非天然的酶催化碳环构建反应方法创新：开发了VAM的α-脱羧路线生成VGQ，相比天然SAM γ-消除路线更经济实用催化创新：通过重新编程天然催化脱羧Claisen缩合的PLP酶，实现了全新的[3+2]环化功能应用创新：合成了具有三个连续立体中心的环戊烷基α,α-二取代氨基酸，这类结构在生物活性天然产物和药物分子中广泛存在研究内容核心方法：从脱羧Claisen缩合到[3+2]环化本研究选取的SphA是一种天然催化脱羧Claisen缩合反应的PLP依赖酶，在鞘真菌素生物合成中作为链释放酶，通过脱羧缩合释放酰基载体蛋白（ACP）结合的多聚酮中间体。研究人员设想，在多聚酮合酶伴侣缺失的情况下，SphA可能能够催化VAM的脱羧反应生成VGQ中间体。方法选择：α-脱羧 vs α-去质子研究者考虑了两条生成VGQ的可能路径：生成路径前体优势劣势 α-去质子 L-乙烯基甘氨酸直接生成需要手性前体，成本高 α-脱羧乙烯基氨基丙二酸（VAM）前体易得、非手性、不可逆脱羧提供热力学驱动力需要酶催化脱羧研究者选择了VAM的α-脱羧路线，主要基于VAM是非手性的且易于合成，其不可逆脱羧为VGQ形成提供了热力学驱动力，避免了昂贵的L-乙烯基甘氨酸前体。 VGQ中间体的生成与表征研究者选择了两个SphA同源蛋白进行表征：酶来源 VGQ半衰期特征 AfSphA Aspergillus fumigatus 7.9分钟品红色变化，中间体更稳定 PvSphA Paecilomyces variotii <0.4分钟快速衰变，产物主要为L-乙烯基甘氨酸实验证据实验方法关键观察意义颜色变化加入VAM后立即从黄色变为品红色表明VGQ中间体形成 UV-可见光谱 ~530 nm特征吸收带与VGQ中间体一致半衰期测定 AfSphA：7.9分钟；PvSphA：<0.4分钟酶稳定性差异 NMR监测定量生成乙烯基甘氨酸支持α-质子化衰变路径非酶对照 12小时仅约20%转化酶催化的必要性手性分析 PvSphA产物主要为L型酶控立体选择性晶体结构证据：VGQ的s-cis构象研究者通过晶体浸泡技术获得了1.85 Å高分辨率的AfSphA-VGQ复合物晶体结构，揭示了：明确的电子密度：对应于s-cis构象的VGQ中间体，证明VAM底物已完成脱羧氢键网络：活性位点中涉及残基H156、S158、N135和D241的氢键网络，与8-氨基-7-氧壬酸合酶（AONS）家族其他成员一致关键水分子：保守的组氨酸残基H156还与相邻单体N303(B)通过水介导的氢键相互作用。这个水分子直接位于VGQ中间体的Cα上方，可能模拟离去CO₂的结合位点这些结果共同确立了通过VAM酶催化脱羧形成VGQ中间体的分子基础。图2：通过脱羧路线生成乙烯基甘氨酸醌式（VGQ）中间体。（a）VAM脱羧生成VGQ的反应路线示意。（b）AfSphA对VAM滴定的UV-可见吸收光谱，~420 nm与~530 nm吸收带分别对应内部醛亚胺与VGQ中间体；紫红色曲线强调VGQ特征吸收，灰色曲线为滴定序列。（c）1.85 Å分辨率的AfSphA–VGQ复合物结构，蓝色网格为省略图密度，验证VGQ生成与结合构象。反应开发：从概念验证到定向进化底物设计与筛选鉴于SphA天然识别长链多聚酮硫酯底物，研究者主要关注羰基功能化的烯烃，羰基既作为吸电子基团（EWG）活化烯烃，又作为导向基团（DG）促进酶的识别，每个底物都附加了正戊基尾链以模拟天然多聚酮底物的扩展疏水链。突破性发现 AfSphA和PvSphA都能催化带有强吸电子基团的缺电子烯烃的脱羧[3+2]环化反应，包括：三氟甲基烯酮7a 硝基烯烃8a 对照实验使用L-乙烯基甘氨酸直接作为VGQ前体时，观察到相似的反应结果，但产率显著低于使用VAM作为底物使用变性酶时，无论用VAM还是乙烯基甘氨酸作为氨基酸供体，都未观察到环加成产物，排除了SphA仅催化脱羧而[3+2]环化非酶进行的可能性定向进化：30倍的效率提升为了提高非天然[3+2]环化活性，研究者采用迭代饱和突变（ISM）策略工程化改造PvSphA：表：PvSphA的定向进化结果参数野生型PvSphA 进化变体PvSphA V4 提升倍数有益突变无 Q46F、L102C、V101I、L157V - 总转化数（TTN）基准 - >30倍催化周转数（kcat）基准 - >10倍脱羧速率基准相当 ~1倍 [3+2]环化速率基准 - >10倍产率（9a） - 96% - 对映选择性 - >99% ee - 图3：反应开发与蛋白质工程。（a）缺电子烯烃底物筛选与反应开发，展示脱羧[3+2]环化构建环戊烷基α,α-二取代氨基酸的整体路线与初筛结果。（b）PvSphA的定向进化结果与关键突变位点定位，蓝色柱表示TTN的平均值，误差条为标准差；结构图中标出有益突变位点。活性提升的来源增强的活性不归因于脱羧速率增加（PvSphA V4催化VAM脱羧速率与野生型酶相当）而是来自更高效的[3+2]环化（稳态动力学分析显示kcat增加超过10倍）使用工程化的PvSphA V4，碳环氨基酸产物9a以优异产率（96%）和对映选择性（>99% ee）获得。尽管三氟甲基酮部分在水溶液中自发互变异构，产生水合物、酮和烯醇形式的平衡混合物，但未检测到非对映异构体。这表明PvSphA V4施加了卓越的非对映和对映控制。底物范围：环戊烷氨基酸的多样性构建三氟甲基烯酮底物：endo选择性对于三氟甲基烯酮底物，PvSphA V4能够容纳疏水性烷基和芳基取代基，以中等至良好的产率（11−76%）生成相应的碳环氨基酸产物（9c−9e），并具有一致的高对映选择性和非对映选择性。通过单晶X射线衍射分析确认了9e的绝对立体化学，并确定环化以endo选择性进行。硝基烯烃底物：exo选择性趋势 PvSphA V4有效容纳疏水性烷基、芳基和杂芳基取代的硝基烯烃（8a−8o），对电子效应低敏感性，但更受取代基位置和大小的影响。表：三氟甲基烯酮与硝基烯烃底物的选择性对比底物类型产率范围对映选择性非对映选择性立体化学主要限制三氟甲基烯酮 11−76% >99% ee 严格endo 单一异构体亲水性底物、三取代烯烃不被接受硝基烯烃中等至良好 >99% ee 降低（exo为主） exo/endo混合物非对映选择性需优化虽然硝基烯烃产生非对映异构体混合物，但单个产物可通过重结晶易于分离。随后的锌粉硝基还原定量进行，得到相应的α,β-二氨基酸作为单一立体异构体（如10f1）。产物的进一步转化三氟甲基烯酮衍生产物可通过NaBH4非对映选择性还原，相应的γ-羟基氨基酸可通过分子内SN2反应进一步内酯化，以高效率获得双环γ-内酯衍生物（如9c2）。这些例子突出了该工程化环化平台在获取结构多样、致密功能化的环戊烷基序及相关衍生物方面的合成潜力。图4：立体选择性脱羧[3+2]环化的底物范围。上半部分为三氟甲基烯酮底物，整体呈endo选择性且对映选择性一致优异；下半部分为硝基烯烃底物，保持高对映选择性但非对映选择性下降。图中同时标注了关键衍生化与还原步骤，9c1与10f1的具体条件见补充方法。机理研究：DFT计算和MD模拟揭示的反应路径分步机理：排除协同[3+2]路径 DFT计算支持分步机理，因为未能成功定位协同的[3+2]过渡态。反应首先由VGQ中间体启动对缺电子烯烃的vinylogous Michael加成，导致VGQ的Cγ-烷基化并形成烯醇负离子中间体；随后赖氨酸在PLP的C4′位置攻击，与氨基酸片段Cβ的质子化一起促进异构化过程，生成Cα-亲电的亚铵物种；最后烯醇负离子的分子内亲核加成完成环戊烷环的形成。 [3+2] vs [2+2]：路径选择的热力学和动力学 DFT计算表明，理论上存在一个竞争的[2+2]环化路径，初始C−C键形成后生成的烯醇负离子可直接攻击PLP结合的氨基丙烯酸酯，在Cβ处形成第二个C−C键。表：[3+2]与[2+2]环化路径的能量学对比参数 [3+2]环化路径 [2+2]环化路径偏好动力学能垒 - 11.8 kcal/mol [2+2]动力学可及热力学稳定性产物明显更稳定仅比VGQ稳定0.5 kcal/mol [3+2]热力学优势环大小五元环（环戊烷）四元环（环丁烷） [3+2]更稳定实验结果优势路径未观察到 [3+2]为主这种最小的热力学驱动力使得[2+2]路径不利，为观察到的[3+2]环化路径偏好提供了合理化解释。VGQ中间体的内在成键偏好使得五元环形成更具优势，这一选择性在酶活性位点中被进一步放大。立体选择性起源：endo vs exo 表：DFT计算与MD模拟揭示的立体选择性控制机制底物内禀能量差（endo-exo）关键相互作用 MD模拟结合能差实验选择性三氟甲基烯酮7c endo低7.7 kcal/mol endo-TS与N303、H156形成两个氢键 endo更稳定18.1 kcal/mol 严格endo选择性硝基烯烃8c endo低6.0 kcal/mol 两个TS均能与S212形成氢键 exo更稳定5.4 kcal/mol 非对映选择性降低研究者提出，内禀TS能量学和差异酶-TS结合偏好的综合效应解释了三氟甲基烯酮观察到的严格endo选择性和硝基烯烃观察到的降低的非对映选择性。对于三氟甲基烯酮，酶的氢键网络强化了内禀的endo偏好；而对于硝基烯烃，酶对两条路径的区分能力被削弱，导致选择性降低。有益突变的结构基础对接和MD模拟还提供了通过定向进化鉴定的有益突变的见解，特别是L102C和V101I，它们似乎直接与烯酮底物的疏水取代基相互作用。V101I的异亮氨酸取代增加了局部疏水表面积，从而加强与底物的有利范德华相互作用；L102C用半胱氨酸替换可能减轻了野生型酶中体积更大的L102侧链施加的空间干扰，从而促进更有效的底物结合。关键残基的催化功能对接和MD模拟揭示了关键残基在催化中的作用：表：关键残基的催化功能与突变效应残基催化作用突变效应识别底物 H156 定位VAM离去羧酸基团主要影响脱羧步骤羧酸基团 N303 识别酮基导向基团 N303Q部分恢复三氟甲基烯酮7c活性三氟甲基酮 S212 识别硝基导向基团 S212T保留硝基烯烃8c约50%活性硝基 V101I 增加局部疏水表面积有益突变，强化范德华相互作用疏水取代基 L102C 减轻空间位阻有益突变，促进底物结合疏水取代基这两个位点的差异敏感性也与对接模型解释一致，该模型表明S212与硝基相互作用，而N303识别酮部分，揭示了底物依赖性的识别机制。图5：计算与突变研究提供的机理见解。（a）7c的endo-TS与exo-TS比较显示仅endo-TS更有利。（b）8c的endo-TS与exo-TS比较显示两种过渡态在酶活性位点中都可能成立。（c）突变分析对净脱羧活性与整体脱羧[3+2]环化活性的影响；球棍模型中灰/红/蓝分别代表C/O/N。催化机理：完整的反应循环基于所有证据，研究者提出了PvSphA V4催化endo选择性脱羧[3+2]环化的合理机理： VGQ中间体的形成 VGQ中间体的形成包括以下步骤：外部醛亚胺形成与脱羧：VAM与PLP形成外部醛亚胺后，H156定向VAM的离去羧酸基团，并将Cα−CO₂−键垂直于PLP辅因子定位以促进C−C键裂解，形成关键的VGQ中间体。这一催化作用与VGQ结合的晶体结构和突变结果一致。无效质子化路径：在没有任何亲电共底物的情况下，VGQ中间体经历立体选择性Cα-质子化生成L-乙烯基甘氨酸，这一立体化学结果强烈表明K275充当该步骤的一般酸。产物[3+2]环化路径对于高效的[3+2]环化反应：底物结合与过渡态稳定：H156和N303定位三氟甲基烯酮以有利于endo路径，这两个残基还可能稳定Cγ−C键形成的过渡态和相应的烯醇负离子中间体。异构化与质子转移：氨基丙烯酸酯中间体的异构化生成Cα-亲电物种，这一过程由K275的共价催化促进。虽然这一过程需要质子转移步骤，但一般酸的身份尚不清楚——DFT计算表明K275可以履行这一作用，但也不能排除水介导质子转移的可能性，如为SbzP提出的。分子内环化：亚铵中间体随后经历三氟甲基烯醇负离子si面的分子内亲核加成，gem-二胺中间体的塌陷完成[3+2]环化。图6：PvSphA V4催化endo选择性脱羧[3+2]环化的建议酶催化机理。图中展示外部醛亚胺形成、H156辅助脱羧生成VGQ、中间体与三氟甲基烯酮结合并发生endo选择性环化的完整路径，关键残基H156、N303、K275与S212参与底物定位与质子转移。 Q&A Q1：为什么选择VAM的α-脱羧路线而不是天然系统的SAM γ-消除路线来生成VGQ中间体？ A1：这一选择主要基于经济性和实用性考量。成本与操作优势：VAM易于合成且是非手性的，而SAM（S-腺苷-L-甲硫氨酸）价格昂贵且化学不稳定，VAM的不可逆脱羧为VGQ形成提供了热力学驱动力，使得VGQ的生成更加高效和可控，脱羧路线在操作简便性和成本效益上具有明显优势。收敛性证明：尽管来自基本无关的蛋白质折叠的酶，两个系统都收敛于相同的[3+2]环化轨迹，这突出了VGQ中间体本身的内在[3+2]环化倾向，独立于其生物合成来源或周围蛋白质支架的架构，为VGQ反应性的利用提供了更实用和通用的基础。 Q2：为什么三氟甲基烯酮和硝基烯烃在非对映选择性上表现出如此显著的差异（endo vs exo）？ A2：这种差异源于内禀过渡态能量学和酶-TS结合偏好的综合效应。内禀能量与氢键作用：DFT计算显示endo过渡态内禀地比exo过渡态更稳定（三氟甲基烯酮7c低7.7 kcal/mol，硝基烯烃8c低6.0 kcal/mol）。对接研究进一步揭示，对于三氟甲基烯酮7c，endo-TS能够通过其酮基与残基N303和H156形成两个稳定氢键，而exo-TS缺乏此类相互作用。相比之下，硝基烯烃8c的硝基能够在两个TS中都形成有利相互作用（如与S212的氢键），这削弱了酶对两条路径的区分能力。 MD模拟验证：7c的endo-TS比exo-TS稳定18.1 kcal/mol，而8c的exo-TS仅比endo稳定5.4 kcal/mol。这种底物依赖性的立体选择性差异突出了酶活性位点的精细调控能力以及不同导向基团对酶-底物相互影响的微妙作用。 Q3：竞争性[2+2]环化路径在动力学上是可及的（能垒仅11.8 kcal/mol），为什么反应仍然偏好[3+2]路径？ A3：这是一个热力学驱动力的问题，而非动力学可及性。能量学对比：DFT计算显示，[2+2]环化路径生成的环丁烷产物仅比VGQ中间体稳定0.5 kcal/mol，这种最小的热力学驱动力使得该路径在热力学上不利。相比之下，[3+2]环化生成的环戊烷产物具有更显著的热力学稳定性优势。在酶活性位点中，这种热力学差异可能被进一步放大，因为酶能够通过稳定特定过渡态和中间体来增强有利路径的速率。 VGQ的内在偏好：这一发现揭示了VGQ中间体的内在成键偏好——尽管能够通过多种路径形成碳-碳键，但其电子结构和几何构型使得[3+2]环化更具优势。这种内在的反应选择性可能是VGQ中间体在自然界中罕见的原因之一——它需要特定的催化环境来释放其独特的反应性。关键结论与批判性总结科学价值概念突破：确立了VGQ作为PLP依赖环化酶催化[3+2]环化反应的机理关键，证明了VGQ中间体的内在[3+2]环化能力，并将其应用于非天然的酶催化碳环构建。更广泛地说，这证明了罕见酶中间体可以作为非天然催化物种被利用，实现超越自然进化选择的生物催化成键新模式。方法创新：开发了VAM脱羧路线生成VGQ。与天然系统中SAM γ-消除路线相比，该路线提供了操作简单和经济可行的VGQ生成手段，考虑到SAM的高成本和化学不稳定性，这为利用VGQ反应性提供了更实用和通用的基础。收敛性证明：尽管来自基本无关的蛋白质折叠的酶，两个系统都收敛于相同的[3+2]环化轨迹。这种收敛强调了VGQ中间体本身的内在[3+2]环化倾向，独立于其生物合成来源或周围蛋白质支架的架构。催化谱系扩展：通过酶重新编程，实现了从脱羧Claisen缩合到[3+2]环化的功能转换，展示了PLP酶催化谱系的可扩展性。立体控制机制：通过DFT计算、对接和MD模拟，系统阐明了酶如何通过氢键网络和疏水相互作用实现高立体选择性控制，为理性酶设计提供了理论指导。应用潜力药物合成价值：环戊烷骨架是生物活性天然产物和药物分子中的优势结构，常作为增强生物活性、代谢稳定性和靶点选择性的构象约束支架。本研究为构建致密功能化、多手性中心的环戊烷氨基酸提供了高效的生物催化方法。酶工程策略验证：定向进化获得的PvSphA V4展示了超过30倍的活性提升（TTN）和超过10倍的催化周转数提升（kcat），证明了工程化改造PLP酶以适应非天然反应的可行性。底物普适性与可扩展性：成功应用于三氟甲基烯酮和硝基烯烃两大类底物，产率高达96%，对映选择性始终>99% ee，产物可进一步转化为γ-内酯和α,β-二氨基酸等衍生物，显示了方法的实用价值和多功能模块特性。局限性与挑战底物范围限制：酶对亲水性底物（如带羟基的7f）不耐受，反映了其疏水活性位点的天然偏好，限制了底物范围。位阻敏感性：三取代烯烃（如7g、7h）由于空间位阻成为较差底物，可能需要进一步工程化改造以容纳更复杂的底物。选择性挑战：硝基烯烃底物的非对映选择性降低（exo/endo混合物），虽然产物可通过重结晶分离，但增加了纯化步骤。此外，异构化步骤的质子供体尚未明确——DFT计算表明K275可以履行这一作用，但也不能排除水介导质子转移的可能性。未来方向 VGQ的其他环化模式探索：一个有趣的方向是检查VGQ中间体是否能够参与超越[3+2]环化的其他串联成键模式，如形式[4+2]和[2+2]环加成，甚至在与光催化平台结合时进行基于自由基的环加成。酶工程深化：通过理性设计和定向进化的结合，进一步扩展底物范围，特别是容纳亲水性和位阻更大的底物。反应模式扩展：在本文建立的VGQ反应框架上，继续探索超越[3+2]环化的其他串联成键模式，如原文讨论中明确提到的形式[4+2]、[2+2]环加成以及与光催化耦合的自由基型环加成。

Molecular Dynamics · 2026-03-16

二聚体Kindlin-2的不对称肌动蛋白结合模式：F3结构域的关键作用

本文信息标题：二聚体Kindlin-2与F-肌动蛋白的结合模式：整合计算与实验研究作者：Xiuxiu Wang, Nan Yang, Jie Niu, Chenchen Wu, Shengtang Liu, Feng Wu, Lei Chang, Ruhong Zhou, Xuanyu Meng 发表时间：2026年2月27日（J. Phys. Chem. B在线发表）单位：苏州大学放射医学与防护学院/放射医学与防护国家重点实验室、浙江大学定量生物中心（杭州）、复旦大学上海医学院放射医学研究所等引用格式：Wang X, Yang N, Niu J, et al. Binding Mode of Dimeric Kindlin-2 to F-Actin: An Integrated Computational and Experimental Study. J Phys Chem B. 2026. https://doi.org/10.1021/acs.jpcb.5c06999 摘要 Kindlin-2是黏着斑中的关键蛋白，对整合素激活和肌动蛋白细胞骨架连接至关重要。然而，Kindlin-2与F-肌动蛋白直接相互作用的结构基础仍不清楚。作为FERM结构域家族成员，Kindlin-2包含F0-F3四个亚结构域，可能作为细胞骨架和膜结合的潜在界面。本文整合了计算对接、分子动力学模拟、结合自由能计算和免疫共沉淀实验，解析了Kindlin-2-肌动蛋白复合物的分子界面。研究发现，除了已知的F0结构域结合位点外，F3结构域是一个之前未被识别的肌动蛋白结合位点。F3结构域通过广泛的静电和疏水接触与肌动蛋白结合，其疏水残基与整合素β1胞质尾相互作用的残基重叠，表明F3是肌动蛋白和整合素的共享对接枢纽。通过结构域截断实验验证，确认了F3结构域的关键作用，排除了对接模型预测的其他界面。基于这些发现，我们提出了一个不对称二聚体Kindlin-2-肌动蛋白复合物结构模型，其中一个原聚体通过F0和F3结构域的协同作用形成相对稳定的肌动蛋白界面，另一个采用F0结构域未结合的更灵活构象，主要依赖F3结构域介导结合。这种不对称构型为Kindlin-2如何同时偶联整合素和肌动蛋白并协调黏着斑相关蛋白的招募提供了机制框架。核心结论 F3结构域是关键的肌动蛋白结合位点：除了已知的F0结构域外，F3结构域被识别为一个之前未被发现的肌动蛋白结合位点，通过广泛的静电和疏水接触与肌动蛋白结合不对称二聚体模型：二聚体Kindlin-2采用不对称构型与肌动蛋白结合，一个原聚体通过F0和F3结构域协同稳定结合肌动蛋白，另一个保持更灵活的构象以招募其他蛋白 F3结构域的双重角色：F3结构域的疏水残基与整合素β1胞质尾相互作用的残基重叠，表明F3是肌动蛋白和整合素的共享对接枢纽实验验证结合模式：免疫共沉淀实验确认了F3结构域的关键作用，排除了对接模型预测的其他界面背景整合素是介导细胞-细胞外基质相互作用的双向信号转导受体，调控细胞黏附、迁移、增殖和存活。整合素激活需要talin和kindlin两类FERM结构域蛋白的协同作用，它们分别结合β整合素胞质尾的不同基序。Talin单独可以诱导整合素构象变化，但高效的激活和后续信号转导关键依赖于kindlin的协同作用。 Kindlin-2定位于黏着斑并与肌动蛋白纤维共定位。虽然Kindlin-2通过与整合素β尾的直接结合参与整合素激活已较为明确，但其与肌动蛋白的直接相互作用在体内是否稳定存在，还是依赖于额外的接头蛋白或特定细胞背景，目前仍不清楚。因此，Kindlin-2如何协调整合素激活与肌动蛋白细胞骨架重塑的分子基础仍未完全理解。最近的结构研究表明，kindlin可以自组装成高级结构。Kindlin-3形成三聚体构象，空间上阻断F3结构域中的整合素结合口袋，提示一种自身抑制状态。相比之下，Kindlin-2采用F2结构域交换的二聚体构象，其中F0和F3亚结构域都保持暴露，能够同时结合整合素和肌动蛋白丝。功能分析表明，二聚体Kindlin-2通过促进talin激活的整合素聚集来增强整合素激活。这些发现提出了一个有趣的可能性：二聚化不仅调控整合素信号，还可能调制肌动蛋白相互作用，从而整合内向外和外向内信号通路。关键科学问题 Kindlin-2的二聚体形式如何与肌动蛋白丝结合？ F0-F3哪些亚结构域直接参与肌动蛋白结合？ Kindlin-2如何同时协调整合素和肌动蛋白的结合？创新点整合多尺度方法：结合分子对接、全原子分子动力学模拟、结合自由能计算和免疫共沉淀实验，从计算预测到实验验证的完整工作流程发现F3结构域新功能：首次识别F3结构域为Kindlin-2的肌动蛋白结合位点，拓展了对FERM结构域功能的认知提出不对称二聚体模型：为Kindlin-2如何同时偶联整合素和肌动蛋白提供了结构机制框架研究内容研究方法：计算与实验的整合本研究采用多尺度整合策略，结合计算模拟和实验验证来解析Kindlin-2与肌动蛋白的结合模式。计算模拟部分包括：方法用途关键参数分子对接从Kindlin-2二聚体与肌动蛋白四聚体的全局构象搜索中识别潜在结合模式使用ZDOCK 3.0.2和GRAMM-X v1.2.0进行刚性对接，获得30个候选构象结构聚类分析通过Cα RMSD分析将30个对接模型聚类成25个非冗余构象类别（RMSD cutoff = 1.5 nm）识别主要的构象家族并避免过度碎片化静电互补性分析使用APBS分析F0/F3正电荷区域与肌动蛋白负电荷表面的电荷互补性验证静电相互作用对复合物形成的重要贡献几何兼容性筛选基于肌动蛋白丝纵向延长方向评估几何兼容性，排除阻碍丝延长的构象后保留5个”可延长”构象确保所选构象在生理上具有合理性结合自由能排序使用PDBePISA估算界面结合自由能，从5个可延长构象中筛选出3个代表性构象构象1（ΔG = −8.4 kcal/mol）、构象2（ΔG = −8.6）、构象3（ΔG = −8.7）全原子MD模拟在300 K和400 K下评估每个构象的稳定性，使用更长肌动蛋白丝（六聚体或八聚体）进行更真实的模拟模拟时长100-300 ns，系统规模40万-80万原子 PMF计算通过伞式采样和WHAM重构结合自由能剖面，量化二聚体Kindlin-2与四聚体肌动蛋白的结合强度使用谐函数势约束，采样窗口间隔0.1 nm，每个窗口3 ns模拟实验验证部分包括：结构域截断策略：根据MD模拟的接触概率预测，设计Kindlin-2截断构建体免疫共沉淀：在HeLa、HCT116和HEK293T细胞中验证不同截断体与肌动蛋白的相互作用功能映射：通过系统性删除关键区域，精确定位不可或缺的结合界面图1：对接分析识别Kindlin-2的F0和F3结构域中的潜在肌动蛋白结合位点。（A）卡通模型说明Kindlin-2和talin在整合素激活中的协同作用，图中显示整合素（蓝色）、肌动蛋白丝（绿色）、talin（橙色）和Kindlin-2（红色/粉色）（B）结合计算建模和实验验证的工作流程，用于筛选和分类候选Kindlin-2-肌动蛋白构象（C）对接模拟获得的25个独特Kindlin-2-肌动蛋白复合物构象的结构模型，显示F0结构域（红色）或F3结构域（黄色）直接与肌动蛋白（绿色）相互作用，大多数构象表现为两个结构域同时参与结合，蓝色应该可能是F1和F2结构域 MD模拟与PMF计算：构象稳定性评估为了评估预测的Kindlin-2-肌动蛋白复合物的稳定性和结合强度，研究对三个候选构象进行了无偏置全原子MD模拟。每个复合物在300 K下模拟，随后在400 K下测试热应力下的稳定性。所有三个复合物都保持稳定结合而没有解离，表明存在稳健的界面。为了在更真实的肌动蛋白丝条件下检查结合，研究使用更长的肌动蛋白丝进行了扩展MD模拟。对于每种构象，在300 K下进行了300 ns模拟，将原始的四聚体肌动蛋白延伸为六聚体或八聚体，以更好代表F-肌动蛋白的纤维性质，避免短丝模型带来的几何偏差。图2：平均力势（PMF）计算评估二聚体Kindlin-2与四聚体肌动蛋白的结合能。统计误差通过自助法估计。插图显示用于PMF拉伸的初始模型，肌动蛋白为绿色，Kindlin-2为灰色。 PMF计算的关键发现：构象1和构象3结合更强：构象1和构象3都显示出比构象2更深的自由能最低点，提示二者都可能代表有生物学意义的结合状态构象2相对较弱：虽然构象2和构象3都采用平行结合取向，但构象2的结合明显更弱能量势垒：解离路径上的能垒反映了复合物的动力学稳定性残基水平接触分析：F3结构域的核心作用接触概率映射揭示了保守性和构象特异性相互作用基序。在所有模拟中，F3结构域（残基608-660）成为主导且持久的肌动蛋白结合界面。关键区域包括β5F3、β6F3、β7F3和α1F3，它们与肌动蛋白形成高占据率接触，强调了F3在识别中的核心作用。图3：Kindlin-2-肌动蛋白复合物构象的残基水平接触概率分析。（A）基于MD模拟期间接触频率计算的残基接触概率，并映射到三个候选构象的结构模型上。使用从白色（低接触概率）到蓝色（高接触概率）的颜色梯度来可视化Kindlin-2上的相互作用热点（B）直方图总结了三个构象中每个残基的接触概率值，说明了接触的频率和分布三个构象的相互作用模式：构象主要相互作用区域特征构象1 两个原聚体的β5F3和α1F3 占总接触面积的80%以上构象2 β5F3、β6F3、β7F3和α1F3 补充瞬态β4F0-β5F0环构象3 β5F3、β6F3和α1F3 伴随稳定的F0相互作用，包括β4F0-β5F0环值得注意的是，构象3中的L46/K47残基（α1F0）之前被证实参与细胞铺展和肌动蛋白组织，在模拟中也直接参与了结合界面的形成。免疫共沉淀验证：确认F3结构域的关键作用为了验证这些预测的界面，研究采用了逐步截断策略。删除F3结构域（Δ608-680）完全消除了β-肌动蛋白的免疫共沉淀，而全长Kindlin-2强烈富集肌动蛋白，确认F3为不可或缺的肌动蛋白结合模块。图4：免疫共沉淀实验验证预测的Kindlin-2-肌动蛋白结合构象。（A）根据每个候选构象的接触概率设计的Kindlin-2截断构建体的示意图（B-D）显示不同Kindlin-2截断构建体与肌动蛋白相互作用的免疫共沉淀结果实验验证的关键发现：截断体目标区域结果结论 Δ608-680 整个F3结构域完全丧失结合 F3是必需的结合模块 Δ34-53 构象3特异的F0界面完全丧失结合 F0的某些区域也参与结合 Δ35-38 F0关键残基（>80%接触概率）完全丧失结合这4个残基是关键决定因素 Δ116-137 构象1/2预测的F0界面无影响排除构象1/2的正确性这些结果表明，虽然PMF支持构象1和构象3都具有可行性，但结合F0截短验证后，构象3获得了最强的实验支持，同时排除了替代的对接预测界面。不对称二聚体模型：Kindlin-2的双重角色机制整合计算和实验结果，研究提出了一个不对称二聚体Kindlin-2-肌动蛋白复合物结构模型。在这个模型中：一个原聚体通过F0和F3结构域的协同作用与肌动蛋白形成相对稳定界面，负责锚定肌动蛋白细胞骨架另一个原聚体采用F0结构域未结合的更灵活构象，主要依赖F3结构域介导更瞬态的接触，可以自由招募整合素或其他黏着斑相关蛋白这种不对称构型为Kindlin-2如何同时偶联整合素和肌动蛋白并协调黏着斑复合物的组装提供了机制框架。F3结构域成为Kindlin介导的整合素-肌动蛋白偶联的中心元件，在黏着信号转导中具有广泛意义。 F3结构域的疏水残基与整合素β1胞质尾相互作用的残基重叠，表明F3是肌动蛋白和整合素的共享对接枢纽。这可能解释了Kindlin-2如何在整合素激活和肌动蛋白组织之间发挥协调作用。 Q&A Q1：为什么F3结构域是肌动蛋白和整合素的共享结合位点？ A1：F3结构域的疏水残基与整合素β1胞质尾相互作用的残基重叠，这种序列和结构上的重叠使得F3能够同时结合两种配体。从功能角度看，这种设计可能使得Kindlin-2能够在整合素激活和肌动蛋白组织之间进行快速切换，而不是需要完全解离一个配体才能结合另一个。 Q2：不对称二聚体模型有什么生物学优势？ A2：不对称构型使得Kindlin-2二聚体能够同时执行多个功能。一个原聚体稳定锚定肌动蛋白，维持细胞骨架连接；另一个原聚体保持灵活，可以招募整合素或其他信号分子。这种分工合作提高了信号转导的效率，也可能使得Kindlin-2能够作为分子枢纽协调多个黏着斑组分的组装和动态重组。 Q3：为什么构象3是最合理的结合模式？ A3：三个方面的证据支持构象3：一是PMF计算显示构象1和3都比构象2结合更强，因此构象3至少在能量学上是可行的；二是MD模拟显示构象3中F3和F0都形成稳定接触；三是免疫共沉淀实验同时验证了F3和F0，尤其是35-38残基的重要性。相比之下，构象1和2预测的F0界面（116-137残基）截断后不影响结合，因此最终是实验验证而不是PMF单独决定了构象3更可信。关键结论与批判性总结本研究通过整合计算对接、分子动力学模拟、结合自由能计算和免疫共沉淀实验，揭示了Kindlin-2与肌动蛋白直接相互作用的结构基础，特别凸显了F3结构域的关键作用。主要贡献发现F3结构域的肌动蛋白结合功能：研究揭示了F3结构域是Kindlin-2之前未被识别的肌动蛋白结合位点，通过静电和疏水相互作用网络与F-肌动蛋白结合，拓展了对Kindlin如何连接整合素与肌动蛋白细胞骨架的当前理解识别共享对接枢纽：介导F-肌动蛋白结合的F3结构域疏水残基与已知识别整合素β1胞质尾的残基相同，将F3定位为可能协调肌动蛋白和整合素相互作用的中央对接枢纽提出不对称二聚体模型：通过整合结构预测与生化验证，提出了二聚体Kindlin-2-F-肌动蛋白复合物模型，其中一个原聚体通过F0和F3结构域的协调贡献（主要由疏水相互作用主导）形成相对稳定的肌动蛋白界面，第二个原聚体采用更灵活的构象（主要由涉及F3结构域的静电相互作用介导，F0结构域未结合）揭示结构基础：这种不对称构型为Kindlin-2在连接整合素与肌动蛋白丝的双重功能同时保留招募额外黏着斑相关蛋白的能力提供了合理的结构基础研究的局限性原文结论部分未明确讨论研究的局限性。根据研究内容可以推断：体外系统的限制：虽然研究整合了计算模拟和实验验证，但体外免疫共沉淀实验可能无法完全复制细胞内复杂环境和动态调节时间尺度限制：MD模拟达到数百纳秒，但对于蛋白质复合物在细胞内的组装和功能调控可能涉及更长的时间尺度过程构象选择的限制：虽然从25个对接构象中筛选出3个代表性模型进行详细研究，但可能存在其他未被充分探索的结合模式未来研究方向更高阶组装体研究：需要进一步研究F3结构域如何在更高阶黏着斑组装体内协调与整合素和肌动蛋白的相互作用，这对于描绘整合素激活和细胞骨架组织的动态调控至关重要动态调控机制：需要深入研究不对称二聚体构象在细胞内的动态转换及其在黏着斑组装和信号转导中的功能意义与其他黏着斑蛋白的相互作用：需要探索Kindlin-2如何通过其灵活的原聚体招募和协调其他黏着斑相关蛋白的组装

Molecular Dynamics · 2026-03-15

GROMACS 2026.0：NN势函数、GPU加速与AMBER/PLUMED完整支持

GROMACS 2026.0：NN势函数、GPU加速与AMBER/PLUMED完整支持摘要 GROMACS 2026.0于2025年1月19日发布，这是分子动力学模拟领域的一次重要突破。本文基于BioExcel Webinar #92的内容，为您梳理2026.0版本的核心亮点。六大核心更新：神经网络势函数接口：原生支持DeepMD、ANI等机器学习势模型，实现接近ab initio精度的经典MD速度 AMD GPU完整HIP后端：所有主要内核均支持AMD GPU，性能接近原生ROCm NVIDIA GPU自由能计算加速：FEP/TI的非键部分可在GPU上执行，性能提升10-30% AMBER力场完整验证：支持ff19SB、OL3等最新力场，与Amber软件完全兼容，用户可无缝迁移 PLUMED 2.9集成：增强采样功能更加稳定高效，长时间模拟不再崩溃 QM/MM稳定性改进：引入检查点机制，提高长时间模拟可靠性谁应该升级：GPU用户（AMD或NVIDIA）应立即升级以获得显著性能提升；需要高精度自由能计算或化学反应模拟的用户可以尝试NN势函数；AMBER用户现在可以无缝迁移到GROMACS，保留熟悉的力场参数；使用增强采样的用户将获得更稳定的PLUMED 2.9支持。视频信息来源：BioExcel Webinar #92 主讲人： Berk Hess（瑞典皇家理工学院 KTH） Lukas Müllender（瑞典皇家理工学院 KTH） Vedran Miletic（德国马普计算与数据设施）视频链接：https://www.bilibili.com/video/BV1Z3P4zeE4g，欢迎在bilibili关注『东山月光下』以观看视频，字幕已经上传！原始链接：What’s new in GROMACS 2026.0：https://www.youtube.com/watch?v=LUnOuUdTSwA 视频发布时间：2026年3月5日 GROMACS 2026.0发布时间：2025年1月19日核心亮点 1. 神经网络势函数接口这是2026版本最重磅的功能更新，它为GROMACS带来了机器学习势函数的原生支持，使得在经典分子动力学框架内运行接近ab initio精度的模拟成为可能。统一的接口设计：GROMACS 2026.0提供了通用的神经网络势函数接口，可以集成多种NN势模型，包括DeepMD、ANI、TorchANI等主流框架。这一接口的统一性意味着用户无需修改GROMACS源代码，只需提供训练好的模型文件即可使用。与GROMACS原生集成：接口直接使用GROMACS计算的pair list（邻接列表），避免了在NN模型内部重新计算非键相互作用，这是性能优化的关键。相比之下，许多外部NN势模型需要自己构建邻接关系，这在大型系统中会成为性能瓶颈。静电嵌入支持：接口支持QM/MM风格的静电嵌入方案，经典区域的电荷可以作为NN模型的输入，这使得NN模型可以感知周围经典原子的电场环境，从而实现更精确的QM/MM耦合模拟。这一特性对于研究化学反应、酶催化等需要量子力学精度的场景尤为重要。力反馈机制：NN模型计算的力可以作用于周围的经典原子，实现真正的双向耦合。这意味着NN区域和经典区域可以相互影响，而非简单的单向作用。对于蛋白质-配体复合物、溶剂化效应等研究，这一机制至关重要。工作流程：使用NN势函数的工作流程相对简单：首先需要准备训练好的NN模型文件（通常是PyTorch的.pt或.pth格式），然后在mdp文件中指定NN势函数模块并提供模型路径，GROMACS会自动加载模型并在运行时调用。 2. GPU性能飞跃 GROMACS 2026.0在GPU支持方面取得了革命性进展，不仅完善了对AMD GPU的支持，还在NVIDIA GPU上实现了自由能计算的加速。 AMD GPU完整HIP后端 2026.0提供了完整的HIP后端支持，使得GROMACS可以在AMD GPU上高效运行。HIP（HIP Interface for Portability）是AMD推出的GPU加速框架，旨在实现代码在AMD和NVIDIA GPU间的可移植性。完整的内核实现：相比之前的实验性版本，2026.0实现了所有主要内核的HIP后端，包括非键相互作用、PME长期静电、约束处理等。这意味着在AMD GPU上运行GROMACS不再需要功能妥协，可以获得与NVIDIA GPU相当的完整功能体验。性能接近原生ROCm：根据官方测试，HIP后端的性能接近AMD原生ROCm优化代码，在某些场景下甚至可以达到90%以上的性能。这一性能水平已经足以满足大多数生产环境的需求。严格的测试验证：HIP后端经过了系统的单元测试和集成测试，不仅由GROMACS团队在标准测试基础设施上验证，还由AMD开发人员进行了独立测试。目前HIP后端的性能已达到相当成熟的水平，可以放心用于生产环境。 NVIDIA GPU自由能计算加速 GROMACS 2026.0将自由能计算内核移植到了CUDA GPU上，这是继PME和键长约束之后的又一个重要GPU加速模块。非键自由能内核GPU实现：自由能微扰（FEP）和热力学积分（TI）等方法的非键相互作用部分现在可以在GPU上执行。这包括Lennard-Jones势、库仑相互作用等的自由能微扰项。之前这些计算必须在CPU上完成，成为性能瓶颈。 CPU-GPU异步执行：GPU和CPU可以并行工作，GPU计算非键自由能贡献的同时，CPU可以处理其他任务。这种异步执行模式在GPU很快、CPU相对较慢的配置下性能提升尤为显著。适用场景：自由能GPU加速在以下场景下效果最佳：当你有快速的GPU和相对较慢的CPU，或者你扰动了系统的很大一部分原子（如大分子配体的结合）。在典型的小分子自由能计算中，性能提升可达10-30%。为什么之前没做：很多人可能会问，为什么GROMACS没有早点实现这个功能？原因是在很多情况下，CPU在GPU计算时是空闲的，将自由能计算放到GPU上并不能提升总体性能。但随着GPU速度越来越快，CPU-GPU性能差距扩大，GPU加速自由能计算变得有意义了。多GPU性能优化对于拥有多GPU的高端系统，2026.0引入了GPU-direct通信和多rank PME等重要优化。 GPU-direct通信：在多GPU模拟中，GPU之间的数据传输（如PME网格交换）现在可以通过GPU-direct技术直接进行，无需经过CPU内存。这大大降低了通信延迟，提高了带宽利用率。多rank PME在GPU上并行：PME（Particle Mesh Ewald）长期静电计算的多个rank可以在GPU上并行执行，充分利用多GPU的计算资源。性能提升：在标准测试中，多GPU优化带来了5%的性能提升。虽然数字看起来不大，但在长时间模拟中累积下来仍然是显著的提升，特别是对于大规模生产模拟而言。 3. AMBER力场完整集成与验证 GROMACS 2026.0对AMBER力场的支持进行了系统性的改进和验证，确保与Amber最新版本的兼容性。包含最新AMBER力场：2026.0支持ff19SB蛋白质力场、OL3 RNA力场等AMBER最新版力场。这些力场代表了AMBER力场家族的最新进展，在蛋白质和RNA的模拟精度上有显著提升。完整的验证流程：GROMACS团队对新版AMBER力场进行了系统的测试和验证，包括小分子、蛋白质、核酸等多种测试体系。验证工作不仅由GROMACS团队完成，还得到了AMBER开发团队的确认，确保与Amber软件的计算结果一致。参数兼容性保证：用户现在可以放心地将在Amber中构建的模型迁移到GROMACS，不用担心力场参数的差异。这对于需要同时使用两个软件的用户（例如在Amber中做参数化，在GROMACS中做生产模拟）来说是一个重大利好。 4. PLUMED增强采样集成更新 PLUMED是分子动力学增强采样的核心插件之一，GROMACS 2026.0更新了对最新PLUMED版本的支持。更新至PLUMED 2.9：集成了PLUMED 2.9版本，这是PLUMED项目的最新稳定版本。PLUMED 2.9带来了许多新功能和性能优化，包括新的偏置势方法、改进的元动力学算法等。不是2.10.0吗？改进的集成接口：GROMACS与PLUMED之间的接口更加稳定和高效，降低了崩溃和内存泄漏的风险。这对于长时间增强采样模拟尤为重要，因为这类模拟通常需要运行数天甚至数周。支持更多模块：更新后的接口支持更多PLUMED模块和势函数，包括用于研究蛋白质折叠、配体结合、相变等过程的专用模块。用户可以更灵活地设计增强采样策略。 5. 运行时性能监控指标 GROMACS 2026.0在日志文件末尾添加了新的性能指标，帮助用户更好地评估和优化模拟性能。每步毫秒数（ms/step）：显示每一步MD模拟所需的毫秒数，这是最直观的性能指标。通过监控ms/step，用户可以快速判断模拟是否达到预期性能，以及是否存在性能瓶颈。每秒百万原子步数（$10^6$ atoms × steps/s）：这是一个归一化的性能指标，综合考虑了体系大小和模拟速度，便于在不同大小的系统之间比较性能。数值越高说明模拟效率越高。这些指标在日志文件末尾自动输出，用户无需手动计算，大大简化了性能评估工作。特别是在尝试不同参数组合时，这些指标可以帮助快速找到最优配置。 6. QM/MM稳定性改进对于使用QM/MM方法的用户，GROMACS 2026.0引入了一个看似微小但影响重大的改进：QM中心定位的检查点（checkpointing）功能。问题背景：在之前的版本中，如果QM中心在模拟过程中偏离初始位置太远，系统可能会变得不稳定，甚至导致模拟崩溃。这是因为QM区域的定位信息没有被保存和恢复。检查点机制：2026.0实现了QM中心定位的检查点功能，当写入检查点文件时，QM中心的坐标和定位信息会被保存。从检查点恢复模拟时，这些信息会被正确恢复，确保模拟的连续性和稳定性。实际影响：对于长时间QM/MM模拟或需要频繁重启模拟的用户，这一改进大大提高了模拟的可靠性。你不再需要担心因为检查点问题导致模拟失败，这在生产环境中是一个重要的稳定性保证。版本号规则解读从2026版本开始，GROMACS采用全新的版本号规则，这一变化旨在让版本号更加直观和一致。主版本号：年份（如2026）表示主要功能发布版本。每年通常会发布一个主版本，包含新功能、性能优化等重要更新。次版本号：bug修复版本（如2026.1、2026.2）只包含错误修复和文档改进，不添加任何新功能。这确保了次版本升级的稳定性，用户可以放心升级而不用担心功能变化带来的兼容性问题。升级建议：建议始终使用最新的次版本号，因为bug修复可能解决你遇到的问题，而且不会破坏现有工作流程。例如，如果你使用2026.0，遇到bug后应该升级到2026.1或更高版本，而不是停留在旧版本。适用场景与实用建议神经网络势函数适合这些场景需要ab initio精度但经典MD速度的研究：例如研究化学反应机理、酶催化过程、电子结构敏感的性质等。NN势函数可以提供接近DFT精度的能量和力，但计算成本接近经典力场。复杂化学反应研究：NN势函数可以处理键断裂和形成过程，这是传统经典力场无法做到的。例如研究蛋白质折叠过程中的二硫键形成、小分子在酶活性中心的反应等。高精度自由能计算：使用NN势函数计算结合自由能、溶剂化自由能等，可以获得更可靠的结果。对于药物设计领域的用户，这意味着更准确的亲和力预测。 QM/MM耦合模拟：NN势函数可以替代传统的QM区域，提供更低成本但保持足够精度的量子力学描述。特别适合大型生物分子的QM/MM模拟。 GPU加速适合这些场景大规模体系（>10万原子）：例如膜蛋白-脂质双分子层体系、核糖体等大分子复合物、病毒衣壳等。GPU加速可以大幅提升这些体系的模拟速度。长时间尺度模拟（微秒级）：GPU加速使得微秒级模拟在合理时间内完成成为可能。例如研究蛋白质构象变化、膜蛋白-配体结合动力学等需要长时间采样的过程。多GPU并行计算：对于拥有多GPU的工作站或集群，2026.0的多GPU优化可以充分利用硬件资源，获得接近线性的性能提升。自由能计算：自由能微扰、热力学积分等计算密集型方法在GPU上的加速尤其明显。对于需要计算多个配体的结合自由能的药物设计项目，GPU加速可以节省大量计算时间。参考资源 GROMACS官网：https://www.gromacs.org/ BioExcel网站：https://bioexcel.eu/ 视频链接：https://www.youtube.com/watch?v=LUnOuUdTSwA GROMACS手册：https://manual.gromacs.org/ 论坛讨论：https://gromacs.bioexcel.eu/ 字幕翻译与整理：东山月光下（B站）。本文基于BioExcel Webinar #92的字幕整理而成

Molecular Dynamics · 2026-03-06

antechamber 的一个隐蔽坑：羧基键级被改写后的 valence 报错

antechamber 的一个隐蔽坑：羧基键级被改写后的 valence 报错下面是一段完整、可复现的排查故事。场景很常见：羧酸盐配体在自动化流程中报错，但单独跑 antechamber 又能过。症状与第一眼判断报错信息通常长这样： Fatal Error! Weird atomic valence (3) for atom (ID: 1, Name: C1). Possible open valence. Warning: This molecule has no hydrogens nor halogens. 第一反应往往是“结构不合理”或“键级没写对”。但这个案例里，原始 mol2 的键级完全正确。复现路径直接在命令行运行下列命令可以通过： antechamber -i ligand.mol2 -fi mol2 -o ligand.prep -fo prepi -at gaff -nc -2 而在自动化流程里，通常会采用两步式处理： antechamber -i ligand.mol2 -fi mol2 -o ligand_gaff.mol2 -fo mol2 -c gas -s 2 -at gaff -nc -2 antechamber -i ligand_gaff.mol2 -fi mol2 -o ligand.prep -fo prepi -at gaff -nc -2 报错发生在第二步。关键证据：中间文件改写了双键对比原始 mol2 与中间 mol2 的键级后发现，羧基双键被改写成了单键。对于 sp2 碳而言，这会让连接数降为 3，acdoctor 以连接数而非键级和判定 valence，于是直接终止。这一点解释了两个看似矛盾的现象：原始 mol2 能通过中间 mol2 会触发 “Weird atomic valence (3)” 另一个会干扰判断的细节如果在排查过程中手动加了 H 或更改质子化态，务必同步更新 mol2 的部分电荷。否则 -nc 与总电荷不一致，会把排查方向彻底带偏。这个问题和 valence 报错是两条独立链路，需要分别确认。为什么文档会建议 -s 2 antechamber 会调用一系列子程序并生成多个中间文件，文档说明这些中间文件通常是全大写命名。遇到问题时，推荐用 -s 2 输出详细日志，逐步定位是哪一步把键级改写了。在本例中，acdoctor 在预检查阶段就失败，还没进入重新判断键级的流程。这也是为什么调整 -j 并没有效果。稳定修复方式最稳妥的修复是跳过 acdoctor 诊断： antechamber -i ligand_gaff.mol2 -fi mol2 -o ligand.prep -fo prepi -at gaff -nc -2 -dr no -dr no 只是不做诊断，不改变实际参数化逻辑。对结构正常的分子来说，acdoctor 原本就全部通过，跳过与否结果一致。一句话结论不是结构错，而是中间 mol2 丢了双键，acdoctor 又在最前面把流程截断了。先看中间文件，再考虑化学结构。避坑清单先单独运行 antechamber，确认原始 mol2 是否能过核对 mol2 的部分电荷总和与 -nc 是否一致用 -s 2 输出详细日志，检查中间文件是否保留键级若中间 mol2 丢双键，可用 -dr no 跳过 acdoctor 诊断

Molecular Dynamics · 2026-03-01

Amber ff19SB高温MD模拟的水模型选择、系综设置与金属离子参数

Amber ff19SB高温MD模拟的水模型选择、系综设置与金属离子参数搜到的资料不多，结合了AI整理和推断，如有错误恳请指出[合十][合十]。 PDF已经移动到literature-reading\metal-ions\ff 摘要在高温分子动力学模拟和金属离子体系建模中，水模型选择、系综设置和离子参数配套共同决定模拟结果的可靠性。本文系统性地梳理了 OPC 与 OPC3 的适用边界、450 K 高温构象采样的系综选择逻辑，以及高价金属离子的 12-6-4 模型参数化与验证。对于水模型选择，ff19SB 论文在已测试水模型中推荐与 OPC 组合（未评测 OPC3）；独立基准研究显示 OPC 在宽温区密度–温度曲线和热膨胀系数上整体优于 OPC3。对于 450 K 构象探索，推荐使用 300 K NPT 确定密度后进行 NVT 高温采样，最终回到 300 K NPT 重新平衡[3]。对于三价/四价金属离子，传统 12-6 模型无法同时重现水化自由能（HFE）与离子–氧距离（IOD），误差可达 ±100 kcal/mol（HFE）和 ±0.1 Å（IOD），必须使用包含 $C_4$ 项的 12-6-4 模型（误差分别在 2 kcal/mol 与 0.01 Å 以内）。在超氧化物还原酶（$\ce{Fe^{3+}}$ + OPC）的验证中，图8 和图9 共同证明：12-6-4 模型在保留配位球结构方面显著优于 12-6 模型，且优化 IOD 的 12-6 参数集在配位几何稳定性上也优于 12-6 HFE 参数集[5]。更换水模型时必须同步配套对应的离子参数，否则可能导致系统性偏差。核心结论水模型优先级：ff19SB 原论文在已测试的显式水模型中推荐 ff19SB + OPC，且未评测 OPC3；若受限必须使用三点水，可选择 OPC3 作为折中方案[4] 高温性能判断：基准研究显示 OPC 在宽温区密度–温度曲线和热膨胀系数上整体优于 OPC3；12-6 模型下 OPC3 的 IOD–HFE 曲线最接近实验目标点，但仍有系统性误差[1][2][5] 构象采样策略：450 K 用于初始构象探索时，建议以 300 K NPT 的体积进入 NVT 高温采样，最终结论以 300 K NPT 的再平衡与生产采样为准[3] 离子参数配套：更换水模型后必须同步更新对应的离子 Lennard-Jones 参数；对于三价/四价金属离子，优先采用 12-6-4 模型，其定量优势在图5部分详细说明[5] 12-6-4 在蛋白体系中的验证：在超氧化物还原酶（$\ce{Fe^{3+}}$ + OPC）的验证中，图8 和图9 共同证明12-6-4在保留配位球结构方面显著优于12-6；且优化IOD比优化HFE更重要，12-6 IOD参数集的配位几何稳定性远优于12-6 HFE参数集[5] 物理机制：OPC 的 M-site 有助于更好拟合高阶多极矩，从而改善氢键网络与温度依赖性质[1][2] 背景高温分子动力学模拟（如 450 K 退火或加速采样）在蛋白质构象探索和增强采样中广泛应用。然而，高温条件下的水模型选择往往被研究者忽视，导致模拟结果可能引入不必要的系统偏差。水模型作为 MD 模拟中占比最大的组分（通常占体系原子数的 80% 以上），其性质对体系的动力学行为、热力学响应和溶剂化结构具有决定性影响。在常温（300 K）下，大多数主流水模型（TIP3P、OPC、OPC3 等）都能给出合理的结果。但在高温或宽温区研究中，不同水模型对温度依赖性质（如密度随温度的变化、热膨胀系数、介电常数等）的拟合能力差异显著。当前存在一个关键的知识缺口：当研究者需要使用 Amber ff19SB 这一代高精度蛋白力场进行高温 MD 模拟时，应该选择 OPC 还是 OPC3 水模型？两者在 450 K 下的性能有何差异？在 NVT 和 NPT 系综之间应该如何选择？这些选择背后的物理机制是什么？水模型选择 ff19SB 水模型选择：OPC 还是 OPC3？在设计高温 MD 模拟方案时，第一个需要明确的问题是：ff19SB 力场应该搭配哪个水模型？ ff19SB 的水模型兼容性 ff19SB 力场以氨基酸特异的 CMAP 修正主链 $\phi/\psi$ 能量面，共拟合 16 组 CMAP（$24 \times 24$ 网格），训练目标为溶液相 QM 能量面，因此不依赖于某一个固定水模型。从兼容性角度，ff19SB 可以与 OPC、OPC3、TIP3P 等多种水模型组合使用。 ff19SB 原论文仅比较了 OPC 与 TIP3P 并推荐在已测试的显式水模型中使用 OPC，同时强调 ff19SB 并未用 OPC 拟合，水模型仍可能是限制因素，未来其他水模型不排除更好[4]。需要说明的是，OPC3 并未包含在 ff19SB 原论文的评测范围内，本文关于 OPC3 的讨论主要来自水模型基准研究。 http://archive.ambermd.org/202303/0144.html 里提到[6] Hi Vlad, Yes we have done some tests using opc3, nothing published yet. For peptides the match to experiment degrades a little compared to opc, but better than tip3p. I don’t have more specifics since I am at the ACS meeting this week. Carlos OPC vs OPC3：本质区别 OPC（Optimal Point Charge water）与 OPC3（Optimal Point Charge 3-point water）是同一研究团队开发的两种水模型，它们的本质区别在于点位（sites）布置和电荷分布方式：特性 OPC OPC3 点位类型 4-point 模型 3-point 模型电荷布置除了两个 H 和 O 以外，还有一个无质量的负电荷点（M-site）偏离氧原子中心，O上无电荷所有电荷都放在 O/H 原子上电荷参数 q=0.6791 e[2] q=0.447585 e[1] 几何参数 l=0.8724 Å，$z_1$=0.1594 Å，θ=103.6°[2] l=0.97888 Å，θ=109.47°[1] LJ 参数 $\sigma_\mathrm{LJ}$=3.16655 Å，$\varepsilon_\mathrm{LJ}$=0.89036 kJ/mol[2] $\sigma_\mathrm{LJ}$=3.17427 Å，$\varepsilon_\mathrm{LJ}$=0.68369 kJ/mol[1] 设计理念类似 TIP4P 的思路，通过 M-site 更准确地拟合水分子的静电分布与氢键网络在 3 点刚性水模型的精度上限约束下做的最优拟合拟合目标优化整体水性质和溶质–水相互作用在 3 点模型框架下达到最佳拟合注：$z_1$ 表示负电荷虚拟点（M-site）相对氧原子沿水分子对称轴的位移，OPC3 为三点模型因此不适用。[1][2] 两者的共同点是以电荷分布为核心进行优化。OPC 的构建采用对 $\mu$–$Q_T$ 空间的系统搜索，仅保留对称性约束，以优化液相电静特征；OPC3 在相同思路下将模型压缩为三点形式，以获得更高的计算效率[1][2] 从物理意义上理解，OPC 的 M-site 相当于在氧原子附近增加了一个额外的“虚拟电荷点”，使得模型能够更准确地再现水分子的高阶多极矩（quadrupole moment），从而改善对氢键网络和溶剂化结构的描述。这里的 $\mu$ 表示水分子偶极矩，$Q_T$ 表示四极矩的迹。OPC 论文定义了一个质量评分，用多项体相性质与水化自由能的综合误差来衡量模型在 $\mu$–$Q_T$ 空间的优劣，得分越高表示越接近目标性质[2]。图1：OPC 的 $\mu$–$Q_T$ 质量评分图（原文 Figure 3）[2] 该图展示了在 $\mu$–$Q_T$ 空间中的模型质量分布，OPC 位于高质量区域，说明其电静多极矩选择更接近液相最优区间[2]。精度 vs 速度/兼容性 OPC 和 OPC3 的选择本质上是在模拟精度与计算通用性之间做权衡： OPC 的优势：在整体水性质、溶质–水静电相互作用、氢键网络的再现上通常更准确。但 4 点模型在某些 MD 引擎或工作流中会稍麻烦或略慢（如 GPU 加速路径对 4 点水的优化程度可能不如 3 点水）。 OPC3 的优势：通常更快、更“通用”（3 点水对很多程序/加速路径更友好），但就水本身的综合性质拟合而言一般不如 OPC。社区实践经验基于原论文结论与常见实践，若不受 3 点水限制，优先使用 OPC；若必须使用 3 点水，再以 OPC3 作为替代。 ff19SB + OPC 的实验验证：图11：CLN025 蛋白的主链 RMSD 随时间变化（Maier et al., JCTC 2020, Figure 11）[4] 该图展示了在 CLN025（一种快速折叠的 β-hairpin 蛋白）的模拟中，三种力场+水模型组合的性能：从天然结构（nat）与完全伸展结构（ext）出发，各 4 条轨迹，共 8 次独立模拟；300 K 进行，总时长约 172 μs 性能对比： ff19SB + OPC（蓝色）：能够可逆地折叠到天然结构，native population = 50 ± 17% ff14SB + TIP3P（红色）：native population = 75 ± 23% ff14SB + OPC（黄色）：native population = 33 ± 19% 关键发现：折叠可逆性：4 次 nat 与 4 次 ext 轨迹均回到天然结构，说明该组合稳定可靠组合匹配性：ff14SB + OPC 的 native population 低于 ff14SB + TIP3P，提示 OPC 与 ff14SB 的协同不足协同优势：ff19SB 并未专门拟合 OPC，但与 TIP3P 对比时 OPC 在折叠动力学与构象平衡上更好[4] 这个实验数据支持 ff19SB + OPC 作为推荐组合的结论，特别是在蛋白折叠、构象平衡等应用中[4]。一个实用的经验法则：默认（蛋白折叠/构象平衡/IDP 等）：ff19SB + OPC 必须 3 点水（例如某些代码路径、极限性能、或你工作流只能稳定支持 3 点）：用 OPC3，并确保离子参数选择合理/一致高温下的性能差异：OPC 还是 OPC3 更好？高温（450 K）是水模型性能差异被放大的场景。当温度升高，水分子的动能增加、氢键网络减弱、密度下降，不同水模型对温度依赖性质的拟合能力差异会显著影响模拟结果的可靠性。纯水基准测试：宽温区对比多项研究已经系统对比了 OPC 和 OPC3 在宽温区（270–650 K）的表现： OPC3 相关论文（Izadi & Onufriev, 2016）：直接对比了 OPC vs OPC3 的密度–温度曲线，作者明确指出：[1] 4-point OPC 在宽温区密度的温度依赖上比 3-point OPC3 更准确给出了一个关键的派生量：OPC3 的热膨胀系数偏差（约 $67.9\%$）远大于 OPC（约 $5\%$）文中指出 OPC3 在三点模型中显著优于 TIP3P/SPC/E，并认为实用三点刚性非极化模型已接近精度上限 2024 年三点水模型的大规模对比（11 个刚性三点水模型）系统评估了液–汽共存、临界点与自发气化等高温行为：[3] 给出各模型的 $T_\mathrm{C}$、$T_\mathrm{MD}$ 与 $T_\mathrm{evap}$，$T_\mathrm{evap}$ 范围约为 $520$–$620~\mathrm{K}$，并明确指出 $T_\mathrm{evap}$ 不是沸点该研究仅覆盖三点模型（包含 OPC3），不包含四点 OPC，因此不能据此得出 “OPC3 优于 OPC” 的结论 OPC 原始论文强调：OPC 通过优化点电荷分布来逼近液相电静特征，体相性质平均相对误差约 $0.76\%$，并且在宽温区保持与实验接近；同时小分子水化自由能的 RMS 误差可做到 $<1~\mathrm{kcal/mol}$[2]。高温性能差异从何而来？ OPC vs OPC3 在高温下的性能差异，核心来自电荷点位布置的不同： OPC（4-point，带 M-site）：负电荷不锁死在氧原子上，而是分布在 M-site → 能更好复现高阶多极矩，从而改善氢键网络与温度依赖性质 OPC3（3-point）：负电荷必须在氧上 → 多极矩表达受限，作者明确指出这会拖累密度温度依赖与热膨胀等指标[1] OPC3 论文给出了两者的多极矩差异：OPC 的 $\mu = 2.48~\mathrm{D}$、$Q_T = 2.3~\mathrm{D\cdot Å}$，而 OPC3 的 $\mu = 2.43~\mathrm{D}$、$Q_T = 2.06~\mathrm{D\cdot Å}$[1][2]。 OPC 的负电荷可偏离氧原子以更好兼顾高阶多极矩；OPC3 负电荷固定在氧上，导致高阶多极矩拟合受限。直接回答“高温下谁更好？” 如果你说的“高温”是指温度高于 350 K 甚至更高并且你关心温度依赖的体相水性质：倾向选择 OPC 如果你受限于 3 点水（性能/引擎/工作流），OPC3 是可接受的折中方案，但要接受它在密度–温度曲线/热膨胀上偏差更大。 450 K 构象采样：NVT 还是 NPT？当你的研究目标是 450 K 下进行蛋白质构象采样（如高温退火、加速跨越能垒），系综的选择（NVT vs NPT）和体积/密度的设定策略会直接影响采样效率和结果可靠性。 NVT vs NPT：物理意义的本质区别首先需要明确 NVT 和 NPT 系综在高温下的物理含义： NVT（等温等容）：固定体积，温度耦和到热浴。体系密度被锁死，不会因温度升高而膨胀。 NPT（等温等压）：固定压力（通常 $1~\mathrm{bar}$），体积可以自由调整。体系会根据温度自动调整到平衡密度。在 $450~\mathrm{K}$、$1~\mathrm{bar}$ 的条件下，液态水处于超热液体区域。对 11 种刚性三点水模型的系统研究表明，NPT 下存在模型相关的自发气化温度 $T_\mathrm{evap}$，且 $T_\mathrm{evap}$ 并不等于沸点。该研究给出的 $T_\mathrm{evap}$ 范围约为 $520$–$620~\mathrm{K}$，其中 $T_\mathrm{evap}$ of OPC3 为 $593.7 \pm 1.2~\mathrm{K}$（C-rescale barostat）[3]。因此，450 K 低于 $T_\mathrm{evap}$，体系在 NPT 下仍可能保持液相，但密度会明显下降，并对 barostat 与升温速率更敏感。若继续升温接近 $T_\mathrm{evap}$，则可能出现空泡、密度骤降、体积迅速增大的“自发气化”现象。你关心的问题类型选择 NVT 还是 NPT，取决于你的研究目标： 1) 只是要一个稳定溶剂环境（重点关注蛋白高温退火/加速采样） ✅ NVT 是合理选择。OPC3 可以用（或 OPC，如果你能用 4-point）。作为三点模型，OPC3 在温度依赖的体相性质上精度有限，但用于“稳定溶剂环境”的需求通常足够。在这种用途里，决定能否稳定运行的往往不是水模型，而是：初始密度是否合理（NVT 下密度不会自动纠正）约束/时间步/恒温器设置是否稳定一个常见参照是温度‑REMD：多数 REMD 实现会在 NVT 下运行多个 replica，在 Amber 这类力场工作流中也很常见；Amber 早期 REMD 只支持 NVT，后续才扩展到 NPT‑REMD[7][8]。因此，把高温 NVT 当作构象探索的工具是合理的，但最终统计仍应回到常温 NPT 的再平衡与生产采样。如果你只需要“稳定液相环境”，核心问题是 $450~\mathrm{K}$ 是否低于 $T_\mathrm{evap}$。三点水模型的大规模对比研究给出 OPC3 的 $T_\mathrm{evap}=593.7 \pm 1.2~\mathrm{K}$，明显高于 $450~\mathrm{K}$，因此在 $450~\mathrm{K}$ NVT 下使用 OPC3 作为稳定溶剂环境是合理的[3]。需要强调的是，高温轨迹只用于初始构象探索，最终统计应回到 $300~\mathrm{K}$ NPT 重新平衡与生产采样。若进行高温 NPT 预平衡，建议采用 C-rescale 并先在中间温度预平衡密度。 2) 你要在 450 K 下比较水的热力学/界面性质（密度-温度曲线、热膨胀、表面张力等） ⚠️ 需要谨慎：OPC3 论文认为实用三点刚性非极化模型已接近精度上限；相比之下 OPC（4-point）在密度温度依赖与热膨胀上通常更贴近实验[1]。如果你在意这些水本身的量，优先考虑 OPC（如果你能用 4-point）或其他被广泛用来做宽温区热力学的模型。图2：OPC 与 OPC3 的密度–温度曲线对比（原文 Figure 7）[1] 黑色为实验数据，蓝色虚线为 OPC，橙色为 OPC3。可以看到 OPC 在较宽温区内更贴近实验曲线，OPC3 在高温段偏离更明显[1]。密度设定策略：用300 K NPT 平衡还是 450 K NPT？对于大多数“关注蛋白构象采样”的场景，推荐的流程是： graph LR A["300 K NPT（1 bar） 得到合理液态密度与体积"] --> B["固定体积 NVT 升温到 450 K 建议 simulated annealing 或分段升温"] B --> C["450 K NVT 采样初始构象 目标：稳定高温溶剂环境"] --> D["300 K NPT，多条平行 真正用无偏MD采样"] 为什么这样选？ 450 K、$1~\mathrm{bar}$ 的 NPT 会显著降低液态密度，且密度对 barostat 和升温方式更敏感；如果目标是“维持高温液态环境以加速采样”，这与 NPT 的密度松弛方向存在冲突。你需要的是“高动能且保持液态的溶剂环境”。用 300 K NPT 的体积（接近常温液态密度）去做 450 K NVT，等价于在高温下维持一个高温但仍致密的溶剂箱，使蛋白在溶剂中更快跨越能垒。推荐的 GROMACS 参数配置 450 K + NVT 在 GROMACS 的实操建议（保证 OPC3 可稳定使用）：先 NPT 调整密度，再切 NVT NVT 下密度锁死；如果直接用 300 K 的密度升到 450 K，水会处在不合理的内压状态，性质会出现偏差。若必须做高温 NPT，建议先在中间温度预平衡密度，再升到目标高温；并优先使用 C-rescale barostat。三点水模型的 $T_\mathrm{evap}$ 对 barostat 有系统偏移：Berendsen 通常偏高、PR 往往更低。水用刚性约束（SETTLE） OPC/OPC3 都是 rigid water；在 GROMACS 里建议用 SETTLE 约束水（更稳定/更快）。时间步适当保守 450 K 动力学更活跃：如果你用全键约束 + 虚拟氢（有的话）可以 2 fs；不确定就从 1–2 fs 起步，先看能量漂移和约束警告。离子参数的“水模型一致性” 如果有盐，离子 LJ 参数最好与水模型配套，否则溶剂化/离子对结构可能出现漂移（这点在高温会更敏感）。离子参数要配套水模型一旦更换，离子 Lennard-Jones 参数也应同步切换，否则盐桥、屏蔽效应与溶剂化自由能可能出现系统性偏移，高温下这种偏移更明显。 AMBER 生态里针对不同水模型有对应的 frcmod.ions 参数组合。若暂时缺少 OPC3 专用参数，OPC3 论文给出过渡方案：可谨慎使用 Joung/Cheatham（TIP3P）的单价离子参数。作者比较了 $\ce{Na+}$、$\ce{K+}$、$\ce{Cl-}$ 的离子–氧距离，指出该参数集在 OPC3 中能在 $\pm 0.05~\mathrm{Å}$ 内匹配目标 IOD 值[1]。高价金属离子：12-6 与 12-6-4 LJ势对于三价（$\ce{M^{3+}}$）和四价（$\ce{M^{4+}}$）金属离子，离子参数的选择更为关键。这类离子在稀土化学、材料科学和金属蛋白中广泛存在，如 $\ce{Fe^{3+}}$、$\ce{Al^{3+}}$、$\ce{Cr^{3+}}$、$\ce{U^{4+}}$、$\ce{Ce^{4+}}$ 等。 12-6-4 的核心优势：传统 12-6 LJ 模型难以同时重现水化自由能（HFE）与离子–氧距离（IOD），因此引入包含 $C_4$ 项的 12-6-4 模型以考虑离子诱导偶极相互作用。该模型能同时逼近实验 HFE 与 IOD，误差分别约为 $2~\mathrm{kcal/mol}$ 与 $0.01~\mathrm{Å}$[5]。 12-6 的可取之处：形式更简单，且可分别选择 HFE 或 IOD 目标进行拟合；但其在蛋白结合环境下对水模型更敏感[5]。 12-6-4 的势能形式可写为：[10] $U_{ij}(r)=\frac{C_{12}^{ij}}{r^{12}}-\frac{C_{6}^{ij}}{r^{6}}-\frac{C_{4}^{ij}}{r^{4}}$ 与水模型的耦合：参数覆盖范围：已为 18 个三价和 6 个四价金属离子开发了配套 OPC/OPC3 的 12-6-4 参数[5] 水模型依赖性：$C_4$ 项对水模型敏感，因此 OPC/OPC3 需要专门参数化，不能直接沿用 TIP3P Figure 4：12-6 vs 12-6-4 的 IOD–HFE 扫描对比什么是 IOD–HFE 扫描曲线？扫描的物理意义：在参数空间中系统地改变离子的 $r_{\min}/2$ 参数，计算每种参数组合对应的 HFE（水化自由能）和 IOD（离子–氧距离）预测值。将这些（HFE, IOD）数据点绘制成二维曲线，就是 IOD–HFE 扫描曲线。扫描曲线展示了在不同参数偏好下，模型如何在两个目标性质之间权衡，帮助理解参数选择的物理约束。扫描的维度与 NGC 约束：对于 12-6 模型（$C_4 = 0$）：只需扫描 $r_{\min}/2$ 一个参数。这是因为 $r_{\min}/2$ 与 $\varepsilon$ 通过 noble gas curve (NGC) 关联，$\varepsilon$ 不是独立自由度 NGC 是基于惰性气体原子实验数据拟合的经验关系，形式为 $\varepsilon = A \cdot \exp(-B \cdot r_{\min/2})$，反映了 LJ 势函数中两个参数的物理约束（原子越小 → 势阱越深）对于 12-6-4 模型：需要在 $r_{\min}/2$ 与 $C_4$ 二维空间扫描，增加一个自由度以同时满足 HFE 和 IOD 曲线的解读：曲线上每个点代表一个可能的参数组合及其预测的（HFE, IOD）值。实验目标点通常不在曲线上，说明 12-6 模型无法同时命中两个目标；而 12-6-4 的虚线边界区域如果能覆盖实验点，则说明可以通过调节 $C_4$ 同时满足两个目标[5] 图4展示在 12-6 模型（$C_4 = 0$，实线）与 12-6-4 模型（$C_4$ 扫描范围，虚线边界）下，七种水模型的 IOD–HFE 扫描曲线与实验目标点的对比（Li & Merz, JCTC 2021, Figure 4），分为左右两个面板：左图：三价金属离子（$\ce{M^{3+}}$）实验目标点的物理含义：图中的黑色实心点代表实验测定的 HFE–IOD 目标值，每个点对应一种三价离子（如 $\ce{Al^{3+}}$、$\ce{Fe^{3+}}$、$\ce{Cr^{3+}}$ 等）的精确水化性质。 OPC3 在 12-6 框架下表现最优：OPC3 水模型的红色实线（$C_4 = 0$，即 12-6 模型）在所有测试的水模型中最接近实验点群，验证了其在 12-6 框架下的优势地位。 12-6-4 虚线边界覆盖实验点：红色虚线边界代表 $C_4$ 在扫描范围内变化时的 12-6-4 模型上下界，这个范围覆盖了大部分实验点。这意味着通过调整 $C_4$ 参数，12-6-4 模型可以同时重现实验的 HFE 和 IOD 值。也没有吧，有个别比较好，大部分并没有重合，加了 $C_4$ 就是整体上移了，不同水的趋势也基本保持一致。三点水模型在金属离子模拟中表现优于四点水模型：七种水模型的性能对比如下表所示：水模型类型代表模型曲线颜色与实验点的距离性能排名三点水 OPC3 红色最近（12-6 框架下最优） 🥇 三点水 TIP3P-FB 黄色相对接近 🥈 三点水 TIP3P 绿色相对接近 🥉 三点水 SPC/E 绿色相对接近 - 四点水 OPC 蓝色系统性偏离 - 四点水 TIP4P-FB 紫色偏离显著 - 四点水 TIP4P-Ew 紫色偏离显著 - 关键发现：四点水模型（OPC、TIP4P-FB）的扫描曲线系统性偏离实验点，尤其是 TIP4P 系列偏差最为显著。这验证了原文的核心结论：三点水模型在金属离子模拟中通常表现更好，而 OPC3 是三点水模型中的最优选择。三点水模型优势的物理机制：三点水模型的负电荷固定在氧原子上，这种分布更接近金属离子周围的水分子排布（水分子通常以氧原子指向金属离子）。相比之下，四点水模型（如 OPC 的 M-site）的负电荷偏离氧原子，虽然对纯水性质更准确，但在描述金属离子–水相互作用时可能引入系统性偏差。右图：四价金属离子（$\ce{M^{4+}}$） OPC3 在四价离子中同样表现最优：右图展示了 $\ce{U^{4+}}$、$\ce{Ce^{4+}}$、$\ce{Th^{4+}}$、$\ce{Pu^{4+}}$ 等四价离子的 HFE–IOD 关系。与三价离子类似，OPC3（红色）的扫描范围最接近实验点，而四点水模型（OPC、TIP4P-FB）的曲线相对偏离。 Figure 5：12-6 模型的定量误差分析图5从定量角度展示了在 12-6 模型下，OPC3 和 OPC 对不同高价金属离子的 HFE 和 IOD 模拟误差（以百分比表示）。该图分为四个子图，揭示了 12-6 模型的顾此失彼现象：当使用 12-6 IOD 参数集时，IOD 准确但 HFE 误差大（上图）；当使用 12-6 HFE 参数集时，HFE 准确但 IOD 误差大（下图）。 12-6 vs 12-6-4 模型的定量对比下表对比了12-6模型与12-6-4模型的误差水平：模型类型 HFE 误差 IOD 误差同时重现两个目标？根本局限 12-6 IOD 参数集 ±10%（约 ±100 kcal/mol） < ±1% ❌ HFE 误差大势函数形式过于简化 12-6 HFE 参数集 < ±1% ±5%（约 ±0.1 Å） ❌ IOD 误差大势函数形式过于简化 12-6-4 模型 < 2 kcal/mol < 0.01 Å ✅ 同时满足无（引入 $C_4$ 项）关键结论：12-6-4模型通过引入离子诱导偶极项（$C_4$），能同时准确重现HFE与IOD，定量证明其在描述高价金属离子–水相互作用方面具有显著优势[5]。 12-6 模型在不同离子上的误差表现下表总结了三价离子在不同12-6参数集下的典型误差范围：参数集误差类型 OPC3 典型误差 OPC 典型误差问题最严重的离子 12-6 IOD HFE 误差 ±10%（多数离子）略大于 OPC3 $\ce{Be^{3+}}$：+16% 12-6 HFE IOD 误差 ±5%（多数离子）略大于 OPC3 $\ce{Be^{3+}}$：+29% 关键观察与结论影响误差的关键因素离子尺寸：小离子（如 $\ce{Be^{3+}}$）在所有指标上误差都最大，而大离子（如 $\ce{La^{3+}}$、$\ce{Ac^{3+}}$）的误差相对较小。这是因为大离子的较低电荷密度使得离子–水相互作用较弱。离子电荷：对于四价离子（$\ce{U^{4+}}$、$\ce{Ce^{4+}}$ 等），误差进一步放大。Supporting Information Figure S1 显示四价离子的误差普遍大于三价离子，因为更高的电荷（+4）导致更强的离子–水相互作用，12-6 模型的偏差被进一步放大。 OPC3 略优于 OPC 的验证定量验证：图5定量验证了图4的观察——OPC3 的误差百分比整体略小于 OPC。但优势幅度不大，且无法改变 12-6 模型的根本性缺陷。物理机制：OPC3 的优势可能来自其在三点水模型中的最优电荷分布，使得 HFE–IOD 曲线更接近实验目标点。但这种优势仍不足以弥补 12-6 模型缺少 $C_4$ 项的缺陷。图4和图5共同构成的证据链：图4从定性角度证明 OPC3 的 IOD–HFE 扫描曲线最接近实验点，图5从定量角度验证 OPC3 在具体离子的误差上略优于 OPC。两图的共同结论总结如下表：结论层次内容说明 12-6 框架下的优先选择 OPC3 IOD–HFE 曲线最接近实验点，误差略小于 OPC 12-6 模型的根本性局限无法同时重现 HFE 和 IOD “顾此失彼”现象源于简化的势函数形式最终解决方案使用 12-6-4 模型引入 $C_4$ 项可同时满足 HFE 和 IOD 结论的适用范围与局限纯水溶液结论的限制：这两图的分析都基于纯水溶液中的金属离子，其结论不能直接外推到蛋白结合体系。在蛋白环境中需要额外的验证（如下文的超氧化物还原酶案例）。蛋白环境的复杂性：配位残基、质子化状态、局部电场等因素会使相互作用更复杂。金属离子稳定性不仅取决于水模型和离子参数，还与配位残基的类型、局部电场强度、质子化状态等因素密切相关。金属蛋白应用案例：超氧化物还原酶中的 Fe³⁺ 为了验证 12-6-4 模型在真实蛋白环境中的表现，作者选择了超氧化物还原酶（superoxide reductase）作为测试体系。该蛋白的每个单体含有一个 Fe³⁺ 离子结合位点，由四个 His 残基和一个 Cys 残基配位[5]。 ⚠️ 适用范围说明：特定离子：以下分析仅针对 Fe³⁺（三价铁），结论不能直接外推到其他金属离子特定水模型：以下分析主要针对 OPC 水模型，其他水模型的表现可能不同体系特异性：金属结合位点的稳定性依赖于配位残基、质子化状态、局部电场等因素 Figure 8：不同参数集和水模型的蛋白骨架 RMSD 对比图8展示在 9 次独立模拟中，使用不同离子参数集和水模型组合时，蛋白骨架重原子的 RMSD 随时间的变化（Li & Merz, JCTC 2021, Figure 8）。曲线特征与定量观察曲线的基本特征：图8展示了9次独立模拟的结果，每条彩色曲线代表一次独立的模拟，使用了不同的参数集/水模型组合。模拟的可重复性：虽然每条曲线的轨迹略有不同，但所有曲线都集中在1.5–2.5 Å范围内，说明不同模拟之间的结果相对一致，可重复性良好。蛋白整体结构保持稳定：大部分曲线的 RMSD 在 1.5–2.5 Å 之间，表明蛋白整体结构保持稳定。骨架 RMSD 对离子参数不敏感：不同参数集/水模型组合的 RMSD 差异不大，说明蛋白整体折叠对离子参数相对不敏感，骨架 RMSD 不是评估金属离子参数优劣的敏感指标。骨架 RMSD 的局限性：虽然骨架 RMSD 显示蛋白整体结构稳定，但骨架 RMSD 不能完全反映金属结合位点的细节变化。 Figure 9：OPC 下 Fe³⁺ 的结合位点稳定性对比图9展示在 OPC 水模型下，Fe³⁺ 使用三种不同参数集时，金属结合位点残基的 RMSD 随时间的变化。这与图8的骨架 RMSD 不同，这里专门关注配位球结构的稳定性。三组曲线的对比参数集颜色优化目标平均 RMSD 波动性 12-6-4 蓝色同时重现 HFE 和 IOD 最低（~1.0 Å）最小 12-6 IOD 黄色仅优化 IOD 中等（~1.2 Å）较小 12-6 HFE 红色仅优化 HFE 最高（~1.4 Å）最大关键发现与物理机制 12-6-4 最稳定（蓝色）：RMSD 值最低且最平稳，平均约 1.0 Å。阴影区域最窄，说明 9 次重复模拟高度一致，配位球结构紧密保持在天然构象附近。 12-6 IOD 次之（黄色）——优化 IOD 是配位几何稳定性的关键：RMSD 值略高于 12-6-4（约 1.2 Å），但远低于 12-6 HFE（约 1.4 Å）。重要发现：优化 IOD 确实能有效保持配位球稳定性！ IOD 重要的物理机制：在蛋白环境中，IOD（离子–配体距离）是配位几何稳定性的关键因素。如果 IOD 参数准确，即使 HFE 有偏差，配位球仍能保持接近天然结构。蛋白结合位点的几何约束主要来自离子–配体距离。 12-6 HFE 最不稳定（红色）——仅优化 HFE 导致配位几何结构失稳：RMSD 值最高且波动最大（约 1.4 Å），阴影区域很宽，说明不同模拟之间差异显著。 HFE 优化的实验观察：在部分模拟中，水分子会替换 His 残基与 Fe³⁺ 配位，导致配位球结构发生显著变化。下表总结了三种参数集在蛋白环境中的性能对比与推荐使用场景：参数集优化目标平均 RMSD 配位球稳定性推荐使用场景 12-6-4 HFE + IOD ~1.0 Å 性能最优 ✅ 首选，尤其是金属蛋白结构预测 12-6 IOD IOD only ~1.2 Å 良好 ⚠️ 12-6 框架下的次优选择 12-6 HFE HFE only ~1.4 Å 性能最差 ❌ 避免使用，容易导致配位球失稳核心结论：在金属结合蛋白（不涉及解离）模拟中，准确重现 IOD 比准确重现 HFE 更重要，因为配位几何稳定性主要依赖于离子–配体距离的准确性。12-6-4 的表现更一致，如果计算资源受限必须使用 12-6 模型，应优先选择 12-6 IOD 参数集而非 12-6 HFE 参数集。配位数如何理解论文并未给出系统的配位数对比，而是用“配位环境的保持性”作为证据链：结论是 12-6-4 更一致地保持配位球，整体优于 12-6，但并不保证所有体系的配位数都更接近实验。若你实测配位数偏大，可能与离子参数、水模型或采样条件有关，建议结合 RDF 积分与实验参考再评估[5]。补充（非本文）：公开综述给出 Mg$^{2+}$ 水合中 12-6-4（TIP3P/SPC/E/TIP4P-EW）对应的 CN=6 与实验一致，但该表没有 12-6 的并列对照，因此不能据此直接判定“12-6-4 比 12-6 更接近实验”[9]。实操建议：对于包含 $\ce{Fe^{3+}}$、$\ce{Zn^{2+}}$、$\ce{Mg^{2+}}$ 等金属离子的体系，优先使用为对应水模型专门参数化的 12-6-4 LJ 参数[5] 如果体系涉及金属蛋白的金属结合位点，12-6-4 模型在配位几何结构稳定性上通常优于 12-6 模型[5] 参数表格可在 Supporting Information 中找到（Table 4：12-6-4 参数集）[5] 搜到有蛋白锌体系的对比显示 12‑6‑4 反而更易引入额外配位水、使 CN 增加。我之前测12-6-4的配位数也是偏大的，$\ce{Al^{3+}}$的CN=7，不过，是14SB+TIP3P 参考文献 Izadi, S., & Onufriev, A. (2016). Accuracy limit of rigid 3-point water models. The Journal of Chemical Physics, 145(7), 074501. https://doi.org/10.1063/1.4960175. [OPC3 原始论文，系统对比 OPC 和 OPC3 在宽温区的性能] Izadi, S., Anandakrishnan, R., & Onufriev, A. (2014). Building Water Models: A Different Approach. The Journal of Physical Chemistry Letters, 5(21), 3863-3871. https://doi.org/10.1021/jz501780a. [OPC 原始论文] N. C. Quoika, et al. (2024). Liquid−Vapor Coexistence and Spontaneous Evaporation at Atmospheric Pressure of Common Rigid Three-Point Water Models in Molecular Simulations. The Journal of Physical Chemistry B, 128, 2457-2468. https://doi.org/10.1021/acs.jpcb.3c08183. [三点水模型的 $T_\mathrm{evap}$、$T_\mathrm{C}$ 与 $T_\mathrm{MD}$ 系统对比，包含 OPC3] Maier, J. A., et al. (2019). ff19SB: Amino-Acid-Specific Protein Backbone Parameters Trained against Quantum Mechanics Energy Surfaces in Solution. Journal of Chemical Theory and Computation, 15(8), 3696-3713. https://doi.org/10.1021/acs.jctc.9b00591. [ff19SB 力场原论文，推荐在已测试的显式水模型中使用 OPC] Li, P., & Merz, K. M., Jr. (2021). Parameterization of trivalent and tetravalent metal ions for the OPC3, OPC, TIP3P-FB, and TIP4P-FB water models. Journal of Chemical Theory and Computation, 17(4), 2342-2354. [DOI: 10.1021/acs.jctc.0c01320] [18 个三价和 6 个四价金属离子的 12-6-4 LJ 参数，包含 OPC/OPC3 专门参数化] AMBER 邮件列表归档（2023-03-14）：关于 OPC3 的未发表测试反馈。http://archive.ambermd.org/202303/0144.html Case, D. A., et al. (2025). Recent Developments in Amber Biomolecular Simulations. Journal of Chemical Information and Modeling, 65(15), 7835-7843. https://doi.org/10.1021/acs.jcim.5c01063. [AMBER 的 REMD 支持扩展，含 NPT‑REMD 说明] Bergonzo, C., Henriksen, N. M., Roe, textD. R., Swails, J. M., Roitberg, A. E., & Cheatham, T. E., III. (2014). Multidimensional Replica Exchange Molecular Dynamics Yields a Converged Ensemble of an RNA Tetranucleotide. Journal of Chemical Theory and Computation, 10(1), 492-499. https://doi.org/10.1021/ct400862k. [AMBER REMD 中每个 replica 以 NVT 生产运行的示例] Li, P., Roberts, B. P., Chakravorty, D. K., & Merz, K. M., Jr. (2017). Metal Ion Modeling Using Classical Mechanics. Chemical Reviews, 117(3), 1564-1686. https://doi.org/10.1021/acs.chemrev.6b00440. [综述 Table 2 汇总了 12-6-4 模型的配位数示例] Li, P., Song, L. F., & Merz, K. M., Jr. (2015). Parameterization of highly charged metal ions using the 12-6-4 LJ-type nonbonded model in explicit water. The Journal of Physical Chemistry B, 119(3), 883-895. https://doi.org/10.1021/jp505875v. [12-6-4 势能形式与参数化方法] 致谢：感谢 MD 模拟社区（GROMACS 论坛、AMBER 邮件列表）在实操经验上的无私分享。

Molecular Dynamics · 2026-02-26

EasyHybrid：让量子化学/分子力学混合模拟变得触手可及

EasyHybrid：让量子化学/分子力学混合模拟变得触手可及本文信息标题：EasyHybrid：用于量子、经典和混合模拟的交互式图形环境（基于pDynamo3）作者：Jose Fernando R. Bachega、Gustavo Hagen、Carlos Sequeiros-Borja、Kai Nikklas、Jorge Chahine、Luis Fernando M. S. Timmers、Martin J. Field 发表时间：2026年1月11日单位：巴西阿雷格里港联邦健康科学大学药学院、巴西南里奥格兰德联邦大学生物技术中心、法国格勒诺布尔大学CEA-CNRS等引用格式：Bachega, J. F. R., Hagen, G., Sequeiros-Borja, C., Nikklas, K., Chahine, J., Timmers, L. F. M. S., & Field, M. J. (2026). EasyHybrid: An Interactive Graphical Environment for Quantum, Classical and Hybrid Simulations with pDynamo3. Journal of Chemical Information and Modeling, 66, 1286−1292. https://doi.org/10.1021/acs.jcim.5c02047 源代码：https://github.com/ferbachega/EasyHybrid3 Vismol源码：https://github.com/casebor/Vismol/tree/vismol_easyhybrid 官方网站：https://sites.google.com/view/easyhybrid 视频教程：https://www.youtube.com/@EasyHybrid 摘要我们推出了EasyHybrid，这是一个基于pDynamo3库构建的免费开源图形界面，用于混合量子化学/分子力学模拟。该软件为准备、检查和编辑分子系统提供了直观的环境，同时支持广泛的模拟类型，包括反应坐标扫描、分子动力学、正则模式分析、Nudged Elastic Band和伞形采样。关键特性包括大型生物分子系统的先进3D可视化、交互式编辑、灵活的原子选择、用于高效QC/MM设置的系统裁剪、轨道与静电势表面、自动日志解析和轨迹分析。EasyHybrid将这些工具集成到单一平台中，为量子化学和混合QC/MM模拟提供了一个熟悉而专业的环境。核心结论 EasyHybrid填补了pDynamo3生态系统的图形界面空白，为学术社区提供免费入口。 EasyHybrid实现了全流程工作流集成，从构建、设置、执行到分析与可视化形成闭环。 Vismol作为独立模块带来大规模系统的高帧率渲染，对生物大分子尤为关键。系统管理支持多系统并行与轨迹解析，显著改善日常操作效率。开源架构促进模块化扩展与社区协作，降低新手入门门槛。背景量子化学/分子力学混合模拟已成为研究大型生物分子系统化学反应的强大工具，能够平衡计算精度与效率。通过将高精度的量子力学方法应用于反应中心（如酶的活性位点），而用分子力学方法处理环境（如蛋白质骨架和溶剂），QM/MM方法能够在保持合理计算成本的同时，提供对化学键断裂和形成过程的准确描述。这种方法学已被广泛应用于酶催化机制研究、药物设计、材料科学等领域，成为连接基础理论与实验观测的重要桥梁。然而，这些高级方法学的使用通常面临显著的技术障碍。pDynamo3作为Python 3实现的分子模拟和建模程序库，提供了高度灵活的脚本化工作流，其输入文件本质上是调用所需子程序的Python脚本，这种设计几乎提供了无限的定制能力，但也对用户提出了较高的编程要求。在计算化学和分子建模领域，交互式图形界面扮演着至关重要的角色。这些工具不仅作为简单的可视化器，还提供了分子绘制和编辑、文件类型和格式之间的相互转换，以及模拟输入文件的生成和提交等基本功能。值得注意的是，该领域已开发了多种图形工具来满足不同的研究需求，包括专门为支持量子化学软件而设计的wXMacMolPlt、ECCE和GaussView，专注于分子可视化的PyMOL、VMD和Avogadro，以及通用化学建模工具Gabedit和Coot。然而，这些工具要么缺乏对pDynamo3的原生支持，要么仅限于协助QC/MM输入文件的准备和结构可视化，未能提供完全集成的模拟环境。在此背景下，EasyHybrid通过提供一个易于访问、开源且完全集成的平台，专门为pDynamo3生态系统设计而脱颖而出。作者团队之前开发了GTKDynamo（已不再维护），这是一个广泛使用的PyMOL查看器的Python 2插件，旨在支持pDynamo 1.7和1.9版本。随着pDynamo库被移植到Python 3并以pDynamo3的名义重新发布，功能进行了大量重写和扩展，EasyHybrid应运而生，作为其现代化图形界面继承者。这种发展轨迹反映了计算化学软件演进的普遍趋势。早期的模拟软件通常提供命令行界面或简单的图形工具，但随着计算能力和用户需求的增长，现代软件需要提供更加友好和功能丰富的用户体验。EasyHybrid不仅继承了GTKDynamo的设计理念，还在技术架构上进行了全面升级，从Python 2迁移到Python 3，从PyMOL插件体系转变为独立的GTK3应用，从固定功能的渲染管线升级到基于现代着色器的可编程管线。这些改进使EasyHybrid能够更好地满足当代计算化学研究的需求，特别是在处理日益复杂和庞大的分子系统时。关键科学问题如何降低QM/MM模拟的技术门槛，让研究者和学生不必深度编程也能上手？如何实现模拟工作流的完全集成，避免多工具切换带来的数据兼容问题？如何提供高效3D可视化能力，在数千原子系统中仍保持交互流畅？如何设计灵活的原子选择与系统管理机制，使量子区域与系统裁剪更直观？创新点架构创新：采用模块化设计，Vismol作为独立3D核心基于OpenGL 3.6实现高性能渲染，可嵌入其他GTK3应用。工作流集成：首次为pDynamo3提供完整图形化工作流，覆盖构建、设置、执行到分析与可视化。用户体验优化：集成EasyPlot，自动解析日志并生成图表，支持交互式轨迹分析与结构对齐。开源教育价值：以免费学术工具形式降低入门门槛，提升教学与培训可及性。研究内容界面架构与实现：Vismol模块的核心特性 EasyHybrid界面使用Python 3实现，采用GTK3工具包生成图形窗口。其交互式3D可视化区域作为一个GTK3小部件运行，在一个名为Vismol的Python 3模块中开发，与EasyHybrid一起分发但由同一开发团队作为并行项目维护。这种模块化设计使Vismol能够轻松集成到GTK3容器应用中，为寻求将分子3D可视化功能嵌入自己工具的开发者提供了灵活的解决方案。图4：EasyHybrid运行界面截图截图展示了多系统管理面板、轨迹对象列表与主视窗中的QC/MM可视化结果，强调Vismol渲染在日常操作中的直观性。 Vismol利用现代OpenGL（3.6版本），除了更广泛使用的片段着色器和顶点着色器外，还结合了几何着色器。这在特定渲染模式下，尤其是线表示和棍状表示，带来了显著的性能提升。传统OpenGL渲染管线在处理大量线条和棍状图元时面临性能瓶颈，因为每个图元需要单独的绘制调用。Vismol通过几何着色器在GPU上直接处理图元的生成和变换，大幅减少CPU与GPU通信开销，使得包含数千原子的生物大分子系统能够保持流畅的交互帧率。主EasyHybrid窗口集成了六个关键组件：菜单栏用于所有界面功能，工具栏包含常用操作，侧边栏显示系统和视觉对象列表，底部面板包含操作日志和残基查看器，状态栏总结系统属性，以及中央交互式3D画布。界面交互的手感被刻意做成“熟悉的科学软件”：旋转、居中与选择等鼠标动作沿用了PyMOL和Coot的习惯，降低迁移成本；整体体验参考了PyMOL、VMD、Avogadro、wXMacMolPlt与Gabedit等经典工具。与GTKDynamo时代不同，EasyHybrid用基于OpenGL/GLSL的自研3D引擎替代PyMOL渲染管线，并用EasyPlot取代Matplotlib，形成一套完全自控的可视化与绘图栈。 EasyHybrid允许在同一会话中管理多个系统。新系统加载后会进入左侧树状列表并自动分配颜色，默认映射到可视化对象的碳原子，便于快速区分；用户可以通过树状列表按钮控制对象显示与编辑。可视化对象既可以来自模拟输出，也可以来自外部坐标文件，并支持“更新现有对象”或“生成新对象”的两种工作方式，从而把多条轨迹聚合到一个会话里做对比。 EasyHybrid允许用户在单个会话中同时管理和操作多个系统。加载系统时，界面会根据文件类型和内容自动识别系统类型（纯量子化学、纯分子力学或混合QC/MM），并相应地显示原子和表示。默认情况下，QC/MM系统中的MM原子以线显示，QC原子以球棍模型显示，固定原子以灰色显示，肽主链使用粗棍状表示（Cα迹线）。这种动态且智能的显示策略为用户提供了关于系统组成的即时视觉反馈。系统准备与QC/MM设置 EasyHybrid可以读取和导出pDynamo3序列化文件（.pkl和.yaml格式），为模拟设置和GUI之外的执行提供了灵活性。这些文件包含所有系统信息，包括坐标和QC/MM参数。加载后，EasyHybrid将MM原子显示为线，QC原子显示为球棍模型（动态），固定原子显示为灰色，肽主链以粗棍状突出显示（Cα迹线）。对于纯QC模拟，坐标通常足够，但由于计算成本高，仅适用于小系统。EasyHybrid提供了专用的QC计算设置窗口，用户可以选择pDynamo3原生方法或外部软件如ORCA、xTB和DFTB+，所有这些软件都与pDynamo3接口。每个选项都包含用于设置所需参数的专用辅助窗口。将系统与分子力学模型关联更为复杂，因为除了原子类型和坐标外，还需要拓扑信息。可以使用pDynamo3原生支持的力场（如OPLS、CHARMM、DYFF、pDynamo3版本的通用力场）构建MM系统。在这种情况下，用户必须提供包含拓扑信息的结构文件（如.mol2）和兼容的参数集。界面会建议默认参数文件，但用户可以根据需要替换。图1：EasyHybrid界面总览图中展示了一个混合QC/MM系统，其中MM区域以线表示、QC区域以球棍模型表示，肽主链以粗棍状（Cα迹线）突出显示，蓝色和红色网格描绘最高占据分子轨道（HOMO）。对于QC/MM系统，用户必须将原子分配到不同区域。pDynamo3使用原子的link属性来确定哪些原子属于QC区域，其电荷将被相应处理。这一过程对于准确描述QM区域的边界条件至关重要，因为在QM/MM边界处需要使用链接原子或冻结轨道等边界处理来应对共价键切断。 EasyHybrid提供了专用的右键菜单，用户可以方便地选择、取消选择原子或切换链接状态，并且界面会自动转换为pDynamo3的QC区域定义。程序还存储原始电荷，以便在定义新的量子区域时，EasyHybrid最初恢复原始电荷，最小化可能的误差累积。这种电荷管理策略对于探索不同的QM划分方案特别重要，因为反复修改QC区域可能会导致电荷累积误差，影响能量计算的一致性。选择与表示：操作细节的补充说明论文的Supporting Information对选择逻辑和表示类型做了细化说明，能直接帮助读者理解“如何操作”和“为什么好用”。EasyHybrid提供两类选择模式：查看选择用于快速浏览当前选中的原子，默认以可调颜色的青色点标记；拾取选择用于建立有序的原子序列，系统会在原子上显示带序号的彩色球形标签，便于定义反应坐标、约束或路径上的关键原子。表示类型方面，SI图中给出了可用的渲染集合，包括线框、棍状、带动态键的棍状、原子球、范德华球、ribbon或Cα迹线，以及非键连原子的线框显示。表示设置会应用到轨迹的所有帧，因此在多轨迹对比时也能保持一致的视觉语言。这些细节看似基础，但它们决定了QC/MM交互流程是否顺手，也是EasyHybrid在教学与日常分析中被认为“上手快”的关键之一。图S1：选择类型示意。（a）查看选择以青色方点标记当前选中的原子；（b）拾取选择以带编号的彩色球体标记顺序，便于构建反应坐标或约束原子序列。图S2：EasyHybrid的表示类型。（a）线框；（b）棍状；（c）球棍；（d）Cα迹线；（e）范德华球；（f）迹线、线框与非键连线的组合表示。图中常见配色为碳绿、氧红、氮蓝、氢白，便于快速识别原子类型。多样化的模拟类型支持 EasyHybrid提供了全面的模拟工具套件，充分利用pDynamo3库的能力，覆盖了从基础能量计算到高级增强采样技术的广泛应用场景。这些模拟类型不仅代表了计算化学方法的不同层次，也反映了研究者面对不同科学问题时需要采用的多样化策略。能量计算和单点计算：使用特定QC/MM或MM模型计算系统的总能量、势能或动能。这些计算对于基准测试与构型对比非常有用，也常用于为后续模拟准备结构。在能量计算过程中，用户可以选择不同的理论方法和基组级别，平衡计算精度与效率，从而初步评估构象稳定性或验证参数合理性。几何优化：使用pDynamo3库中实现的最速下降和共轭梯度算法进行结构最小化。用户可以指定优化周期数、收敛标准，以及是否在优化过程中保存中间结构的轨迹。几何优化是模拟工作流的基础步骤，能够帮助研究者找到局部或全局能量极小点，为后续动力学模拟或频率分析提供起点。EasyHybrid的图形界面使用户能够实时监控优化进度，可视化收敛过程并快速判断优化是否成功。分子动力学模拟（MD）：EasyHybrid支持设置和运行MD模拟，用户可以指定集成时间步长、总模拟时间、温度控制器类型和恒温温度、坐标保存频率等参数。模拟完成后，轨迹可以自动加载到界面中，以动态键表示可视化，显示化学键如何随时间演变。MD模拟能够提供系统在有限温度下的动态行为信息，对于理解蛋白质折叠、配体结合、溶剂效应等过程具有不可替代的价值。EasyHybrid的动态键表示模式特别适合展示键的形成与断裂，使用户能够直观观察反应或构象变化。势能面扫描（PES）：沿一个或两个反应坐标扫描能量。单维扫描计算沿反应坐标各点的能量，而二维PES同时计算两个反应坐标的能量矩阵，这对于研究复杂反应机制特别有用。PES扫描是理解反应路径、识别过渡态与中间体的基础方法，EasyHybrid的EasyPlot工具能够将二维PES以能量矩阵图的形式呈现，用户可以交互式选择反应路径进行深入分析，这种功能在传统脚本工作流中难以实现。正则模式分析：计算系统的振动频率和正则模式。正则模式分析不仅能够提供分子的振动光谱信息，帮助与实验光谱（如红外、拉曼）进行对比，还能够识别分子的柔性区域与刚性区域，为理解分子功能提供线索。EasyHybrid集成的可视化功能使用户能够以动画形式展示正则模式的振动模式，直观理解不同原子在特定频率下的运动方式。 Nudged Elastic Band方法（NEB）：用于寻找反应路径和过渡态，通过在反应物和产物之间插值表示路径，并优化这些图像以找到最低能量路径。NEB方法是研究化学反应机制的重要工具，能够确定反应的能垒与过渡态结构，对于理解反应速率和选择性的物理本质至关重要。伞形采样：一种增强采样技术，用于计算沿反应坐标的自由能分布。该方法在设置上类似PES扫描，但在每个窗口使用短MD模拟而不是几何优化。每个窗口获得的反应坐标轨迹可以使用pDynamo3中实现的加权直方图分析方法（WHAM）进行后处理，以重建整体自由能面。伞形采样是计算自由能景观的金标准方法之一，广泛应用于配体结合自由能、pKa预测、相变等研究领域，EasyHybrid的集成使用户能够在统一环境中完成从窗口设置到WHAM分析的全流程。所有模拟类型都通过pDynamo3的后端执行，并受益于EasyHybrid的集成可视化、选择和配置工具。对于QC和QC/MM模拟，用户可以采用pDynamo3原生方法或pDynamo3与外部引擎的组合（如ORCA、xTB、DFTB+），所有这些都可通过专用界面面板访问。图2：EasyHybrid中的QC区域选择和设置（a）查看模式下的原子选择，可通过右键菜单进入量子化学设置窗口；（b）QC参数的配置界面；（c）QC原子默认显示为球棍模型、MM原子显示为线，体现QC/MM分区的可视化默认规则。结果分析与可视化使用pDynamo3库执行的模拟会生成多种格式的结果。在EasyHybrid中，所有pDynamo3进程都被设计为输出包含特定模拟基本结果的日志文件。EasyHybrid可以自动读取和解释日志文件，以图形形式显示关键数据。这些图表可以被用户保存和操纵，提供了一种方便的方式来生成图形和结构表示。日志文件处理在任何通过EasyHybrid执行的pDynamo3例程结束时自动触发，但也可以手动对先前生成的EasyHybrid/pDynamo3日志文件执行。绘图由名为EasyPlot的自定义工具处理，使用Pycairo图形库开发。这种集成使用户能够在模拟完成后立即获得专业级的科学图表，而无需借助外部绘图软件。图3：沿两个反应坐标同时进行的势能面扫描（PES）（a）能量矩阵图，水平轴与垂直轴分别对应反应坐标r1和r2；（b）用户可在能量表面交互式选择帧生成一维能量曲线；（c）到（e）展示反应物、过渡态与产物结构。图中标记1、2、3的半透明球表示选取的反应坐标原子，虚线显示动态跟踪的原子间距离；论文指出右下角的替代路径在此例中属于可视化伪影，提醒读者谨慎解读路径选择。 pDynamo3的轨迹与可视化输出还包括轨道与势能面随反应路径演化的展示。SI图例以chorismate mutase反应坐标为例，给出了HOMO在势能面扫描过程中的三维展示，强调EasyHybrid可以把“结构-轨道-能量”三者串联到同一条分析链上。另有SI表格对比了EasyHybrid与其他免费分子可视化软件的功能覆盖范围，进一步凸显其pDynamo3原生支持与QC/MM流程闭环的定位差异。图S3：HOMO沿反应路径的可视化与能量轮廓 (a) 反应物、(b) 过渡态、(c) 产物的HOMO等值面示意，红蓝网格表示轨道等值面相位；(d) 对应的势能曲线，清晰标出R、TS与P的能量变化轨迹。 pDynamo3产生的另一类重要输出文件包括轨迹文件。这些文件可以采用多种格式，包括原生格式（如pkl）和外部格式（如CRD、NetCDF和DCD），并且可能包含原子坐标、能量、反应坐标值、速度等信息。EasyHybrid支持多种pDynamo3轨迹类型，允许用户同时加载多个轨迹并指定要处理的数据对象。该界面还包含一组结构分析工具，包括在轨迹过程中监控多个距离、角度或二面角，以及RMSD计算、结构对齐、重成像等。这些分析功能使用户能够深入理解模拟过程中发生的结构变化，例如蛋白质的构象转变、配体的结合模式变化、或溶剂分子与溶质的相互作用演化。通过同时加载多个轨迹，用户可以方便地比较不同条件下的系统行为，这种比较研究在理解温度、pH、突变等因素对分子结构和动力学的影响时特别有价值。这种全面的结果分析和可视化能力确保了用户不仅能够设置和运行模拟，还能够在统一环境中深入理解结果，而无需在多个工具之间切换。 Q&A Q1：EasyHybrid与传统的命令行pDynamo3使用方式相比有哪些优势？ A1： EasyHybrid最显著的优势在于极大地降低了技术门槛和学习曲线，图形界面让用户无需深度脚本即可设置和运行复杂的QM/MM模拟，尤其适合初学者与教学场景。集成的可视化环境使用户能够实时检查系统设置并立即分析结果，减少编写与调试脚本的成本。交互式原子选择与系统编辑支持快速迭代建模，提升整体研究效率。需要注意的是，对于高度定制化工作流，pDynamo3的脚本化方式仍提供最大灵活性，EasyHybrid更偏向常见任务的高效操作体验。 Q2：Vismol模块在性能方面有何特殊之处，特别是与其他分子可视化工具相比？ A2： Vismol的核心优势在于充分利用现代OpenGL 3.6特性，尤其是GPU端几何着色器加速，提升了线表示与棍状表示的渲染效率。在包含数千甚至数万原子的系统中，这种优化使交互式3D可视化更加流畅，更适合大分子与QC/MM体系。 Vismol采用模块化设计，作为独立的Python 3模块与EasyHybrid并行维护，便于被其他GTK3应用复用，促进社区协作。需要注意的是，这种优化主要集中在特定渲染模式，体积渲染或光线追踪等高级效果仍可能不如专用可视化工具。 Q3：EasyHybrid在系统裁剪和QC区域设置方面提供了哪些便利功能？ A3：右键菜单提供直观的选择与取消选择操作，并能切换链接状态，界面会自动转换为pDynamo3的QC区域定义。系统保存原始电荷，当调整量子区域时先恢复原始电荷并最小化误差累积，有助于探索不同的QM/MM划分方案。通过pDynamo3系统管理能力，用户可裁剪远端水分子或离子，在保留关键相互作用的同时减少计算量，显著提高QC/MM计算效率。 Q4：EasyPlot工具的自动化日志解析功能是如何工作的，它为用户带来了哪些便利？ A4： EasyPlot基于Pycairo实现，能够自动解析pDynamo3日志中的能量与结构数据，并生成专业级科学图表。自动化日志解析流程减少了手动提取与绘图的时间成本。支持交互式数据探索，例如在二维PES扫描中点击矩阵点生成一维能量曲线，弥补传统静态图表的限制。主要针对pDynamo3输出优化，其他软件输出仍可能需要转换或借助通用绘图工具。 Q5：EasyHybrid在教育和研究培训方面有哪些潜在应用价值？ A5：作为免费的开源工具，EasyHybrid为计算化学教学提供友好的入门平台，学生无需深入编程即可理解QM/MM核心概念与常见流程。可视化能力让抽象概念变得直观，例如通过轨道演化与轨迹回放理解反应机制与构象变化。支持构建虚拟实验和在线课程，降低教学硬件门槛。开源性质便于教学定制与功能扩展，提升课程与培训的可及性。关键结论与批判性总结主要影响学术影响：EasyHybrid为pDynamo3生态系统提供了首个现代化图形界面，填补了开源QM/MM模拟工具的重要空白，促进了先进方法学在学术社区的普及和应用，特别是对资源有限的发展中国家研究机构具有重要意义。教育价值：作为免费的开源工具，EasyHybrid为计算化学教学和培训提供了理想的平台，学生可以在不深入编程的情况下理解QM/MM模拟的基本概念和工作流程，降低了学习门槛并培养了下一代计算化学家。方法学可及性：通过集成全流程工作流和自动化日志解析，EasyHybrid使更多研究者能够使用伞形采样和NEB等高级方法，推动了酶催化、反应机理等领域的研究进展。局限性平台限制：EasyHybrid目前主要在Linux下运行，Windows用户需要通过Ubuntu子系统使用，这可能会限制其在某些用户群体中的采用。对于不熟悉Linux环境的实验研究者而言，这种平台依赖可能成为使用的障碍。功能边界：虽然EasyHybrid提供了全面的图形界面，但对于高度定制化的模拟流程和特殊方法学，用户可能仍需要回归到pDynamo3的脚本化工作流。这种限制在需要串联多个不同软件或实现复杂自动化任务的场景下尤为明显。性能权衡：图形界面虽然降低了使用门槛，但在批处理任务和高通量计算场景中，命令行脚本仍可能更高效。图形界面的开销在运行大量相似模拟时可能累积为显著的时间成本。生态系统整合：EasyHybrid专注于pDynamo3生态，与其他主流模拟软件（如GROMACS、AMBER）的互操作性有限，可能需要用户进行数据格式转换。这种局限性在需要结合不同软件优势的多方法学研究中可能带来不便。高级功能缺失：一些先进的模拟技术，如元动力学、加速分子动力学等增强采样方法，在当前版本的EasyHybrid中可能尚未完全集成，需要用户通过脚本方式实现。未来方向跨平台支持：开发原生Windows和macOS版本将显著扩大用户基础，使更多研究者能够轻松使用EasyHybrid。跨平台支持对于降低使用门槛和促进在不同操作系统环境中的普及至关重要。功能扩展：集成更多pDynamo3的高级功能，如元动力学、加速分子动力学等增强采样技术，以及更精确的自由能计算方法。这些功能的集成将使EasyHybrid能够应对更复杂的科学问题，拓宽其应用范围。云端部署：开发基于Web的版本或云计算集成，使用户无需本地安装就能使用EasyHybrid，进一步提高可及性。云计算平台还可以提供按需分配的计算资源，降低硬件门槛。社区协作：鼓励社区贡献插件和扩展，建立用户开发和分享定制功能的生态系统，类似于VMD或PyMOL的插件系统。活跃的社区贡献能够加速功能迭代，促进方法学创新。教学资源：开发更多的教程、示例课程和视频材料，特别是在线实验手册和虚拟实验室，促进在计算化学教育中的广泛应用。这些资源对于培养下一代计算化学家和推广QM/MM方法学具有重要意义。互操作性增强：改进与其他主流模拟软件的数据交换能力，支持更多文件格式和标准接口，使EasyHybrid能够更好地融入多方法学的研究工作流。这种改进对于促进不同软件与方法协同使用具有关键作用。

Molecular Dynamics · 2026-02-21

神经关系推断：从MD轨迹中学习蛋白质长程变构相互作用

Molecular Dynamics · 2026-01-25

变构激活的动态基础：恶性疟原虫蛋白激酶G的长程通信机制

Molecular Dynamics · 2026-01-22

LSP-MD：捕捉热振动驱动变构效应的快速计算方法

Molecular Dynamics · 2026-01-16

QM/MM自由能微扰深度技术解析：从热力学循环到收敛性标准

QM/MM自由能微扰深度技术解析：从热力学循环到收敛性标准引言本文深入剖析Ryde课题组QM/MM-FEP方法的技术原理和模拟细节，为实际应用提供完整的技术指导。内容涵盖：热力学循环：如何巧妙地将QM修正从FEP中分离中间态理论：为什么4个Λ值是最优选择收敛性标准：如何判断计算是否可信并行化策略：如何最大化计算资源利用率实践建议：从体系准备到结果分析的完整流程一、理论基础：参考势方法的热力学循环 1.1 为什么需要参考势方法？直接QM/MM-FEP的困境： [\Delta G_{A \to B}^{\mathrm{QM/MM}} = \int_0^1 \left\langle \frac{\partial H_\lambda}{\partial \lambda} \right\rangle_\lambda \mathrm{d}\lambda] 其中 $H_\lambda = (1-\lambda)H_A^{\mathrm{QM/MM}} + \lambda H_B^{\mathrm{QM/MM}}$ 问题：需要在每个λ窗口运行QM/MM MD（通常18个窗口） QM/MM和纯MM的势能面差异大，相空间重叠不足即使用半经验方法，成本也极其高昂 1.2 参考势方法的核心思想热力学循环构建： graph TB subgraph "结合态" A1["配体A@MM"] -->|"①ΔGMMbound"| B1["配体B@MM"] A1 -->|"②ΔG1A"| A2["配体A@QM/MM"] B1 -->|"③ΔG1B"| B2["配体B@QM/MM"] A2 -->|"目标"| B2 end subgraph "自由态" C1["配体A@MM"] -->|"④ΔGMMfree"| D1["配体B@MM"] C1 -->|"⑤ΔG2A"| C2["配体A@QM/MM"] D1 -->|"⑥ΔG2B"| D2["配体B@QM/MM"] C2 -->|"目标"| D2 end style A1 fill:#e1f5ff style B1 fill:#e1f5ff style A2 fill:#fff4e1 style B2 fill:#fff4e1 热力学等式： [\Delta\Delta G_{\mathrm{QM/MM}} = (\Delta G_{\mathrm{MM}}^{\mathrm{bound}} - \Delta G_{\mathrm{MM}}^{\mathrm{free}}) + (\Delta G_1^B - \Delta G_1^A) - (\Delta G_2^B - \Delta G_2^A)] 简化为： [\Delta\Delta G_{\mathrm{QM/MM}} = \Delta\Delta G_{\mathrm{MM}} + \Delta\Delta G_1 - \Delta\Delta G_2] 优势： ①和④：标准MM-FEP，已有成熟工具（如GROMACS、AMBER） ②③⑤⑥：仅需计算MM→QM/MM的垂直能量修正 1.3 垂直能量修正：RPQS方法目标：计算$\Delta G_1^A$（配体A结合态的MM→QM/MM修正）指数平均公式： [\Delta G_1^A = -k_B T \ln \left\langle \exp\left(-\frac{E_{\mathrm{QM/MM}} - E_{\mathrm{MM}}}{k_B T}\right) \right\rangle_{\mathrm{MM}}] 关键特点：平均在MM轨迹上进行仅需在MM快照上计算QM/MM单点能无需运行完整QM/MM MD 实践问题：直接使用指数平均（EXP）会严重偏差，需引入中间态。二、中间态理论：Λ坐标的设计 2.1 为什么需要中间态？指数平均的问题： [\langle \exp(-\Delta E / k_B T) \rangle \gg \exp(-\langle \Delta E \rangle / k_B T)] 当$\Delta E$分布较宽时，少数高能构象会被过度加权，导致：收敛极慢（需10⁴+样本）对长尾敏感有限样本系统性高估$\Delta G$ 解决方案：引入中间态，将大跃变分解为小步骤。 2.2 中间态哈密顿量定义混合势能： [E_\Lambda = (1-\Lambda) E_{\mathrm{MM}} + \Lambda E_{\mathrm{QM/MM}}] 其中$\Lambda \in [0, 1]$： $\Lambda = 0$：纯MM $\Lambda = 1$：纯QM/MM $0 < \Lambda < 1$：线性插值自由能路径积分： [\Delta G_1^A = \sum_{i=0}^{N_\Lambda - 1} \Delta G_{\Lambda_i \to \Lambda_{i+1}}] 每个小步用更稳健的估计器（如BAR或MBAR）。 2.3 Λ值选择的定量分析测试方案（Olsson & Ryde 2017）：设置 Λ值估计器 MAD (kJ/mol) 相对成本 EXP-2 0, 1 EXP 5.2 0.11 BAR-4 0, 0.25, 0.75, 1 BAR 3.1 0.14 MBAR-11 0, 0.1, …, 1 MBAR 3.0 0.22 关键发现： 2 Λ系统性低估亲和力：误差+2 kJ/mol 4 Λ已收敛：与11 Λ精度相当边际收益递减：从4到11 Λ仅改善0.1 kJ/mol 物理解释：图：能量分布的演化（略） Λ = 0 vs Λ = 1：分布重叠度低（Ω ~0.01） Λ = 0 vs Λ = 0.25：分布重叠度中等（Ω ~0.15）相邻Λ：4个Λ确保相邻窗口Ω > 0.03 2.4 BAR和MBAR估计器 Bennett接受比（BAR）： [\Delta G_{i \to i+1} = k_B T \ln \frac{\left\langle f(U_{i+1} - U_i - C) \right\rangle_i}{\left\langle f(U_i - U_{i+1} + C) \right\rangle_{i+1}} + C] 其中$f(x) = 1/(1 + \exp(x / k_B T))$，$C$通过自洽迭代求解。多态BAR（MBAR）： [\Delta G_i = -k_B T \ln \sum_{j=1}^{N_{\mathrm{states}}} \sum_{n=1}^{N_j} \frac{\exp(-U_i(\mathbf{r}{jn}) / k_B T)}{\sum_k N_k \exp(f_k - U_k(\mathbf{r}{jn}) / k_B T)}] 优势： BAR：最优利用前向和后向采样，方差最小 MBAR：全局优化，可同时处理多个Λ态比EXP稳健：对长尾不敏感三、QM/MM体系设置 3.1 QM区选择原则一般规则：必须包含：发生化学变化的原子（如配体）可选包含：与QM区有强相互作用的残基（如金属配位残基）避免切割：不要在共轭体系中间切断本研究选择：仅配体作为QM区（~15原子）优势：计算成本可控配体是结合自由能变化的核心 MM轨迹已充分采样主体和溶剂局限：忽略QM-MM界面的极化效应若配体直接与金属配位，可能需扩大QM区 3.2 QM方法选择 PM6-DH+半经验方法： [E_{\mathrm{PM6-DH+}} = E_{\mathrm{PM6}} + E_{\mathrm{disp}}^{\mathrm{DH}} + E_{\mathrm{H-bond}}^{\mathrm{DH+}}] 优势：速度：单点能~1秒（复合物~7000原子）色散校正：DH项准确描述π-π堆积氢键校正：DH+项改善氢键几何参数覆盖：H, C, N, O, S, P, 卤素局限：金属中心不可靠（d轨道参数化差）过渡态、激发态不适用对强电荷转移体系精度下降 DFT替代： TPSS-D3：精度更高，但慢~100倍 ωB97X-D：长程校正，适合电荷转移实践：用PM6筛选，DFT验证关键配体 3.3 MM力场和边界处理力场选择：配体和主体：GAFF（通用AMBER力场）溶剂：TIP3P水模型电荷：RESP（从HF/6-31G*拟合）边界处理：机械嵌入 [E_{\mathrm{total}} = E_{\mathrm{QM}}(\text{配体}) + E_{\mathrm{MM}}(\text{主体+水}) + E_{\mathrm{vdW}}^{\mathrm{QM-MM}}] QM区感受MM的静电势（作为外部点电荷） QM-MM相互作用仅包含范德华项（LJ势）不包含极化：MM电荷固定，不响应QM电子云变化电子嵌入替代： [E_{\mathrm{total}} = E_{\mathrm{QM+MM_charges}}(\text{配体}) + E_{\mathrm{MM}}(\text{主体+水}) + E_{\mathrm{vdW}}^{\mathrm{QM-MM}}] QM哈密顿量包含MM电荷的静电项更准确但慢~20% 适用于QM-MM界面有强极性相互作用的情况四、收敛性标准：如何判断计算可信 4.1 标准误差（Standard Error）定义： [\mathrm{SE}(\Delta G) = \sqrt{\frac{\sigma^2}{N_{\mathrm{eff}}}}] 其中$N_{\mathrm{eff}}$是有效独立样本数（通过自相关时间校正）。判断标准：SE < 0.5 kJ/mol 局限：仅反映统计不确定性，不能检测系统性误差（如采样不足、力场偏差）。 4.2 相空间重叠度量 4.2.1 Overlap Coefficient (Ω) [\Omega_{i,i+1} = \int \sqrt{p_i(E) \cdot p_{i+1}(E)} \, \mathrm{d}E] 物理意义：两个状态的能量分布重叠程度 Ω = 1：完全重叠（理想） Ω = 0：无重叠（FEP失效）推荐阈值：Ω > 0.03 实践计算： import numpy as np def calculate_overlap(E_i, E_ip1, bins=50): """计算相邻λ窗口的重叠系数""" hist_i, edges = np.histogram(E_i, bins=bins, density=True) hist_ip1, _ = np.histogram(E_ip1, bins=edges, density=True) # Bhattacharyya系数 omega = np.sum(np.sqrt(hist_i * hist_ip1)) * (edges[1] - edges[0]) return omega 4.2.2 Maximum Weight (wmax) [w_{\max} = \max_i \left( w_i / \sum_j w_j \right)] 其中$w_i = \exp(-(U_{i+1} - U_i) / k_B T)$是样本权重。物理意义：检测是否有单个样本主导FEP估计 wmax < 0.5：权重分布均匀（良好） wmax > 0.8：一个样本贡献>80%（危险）推荐阈值：wmax < 0.5 4.2.3 综合判断收敛性检查清单：指标阈值状态 SE < 0.5 kJ/mol ✅ Ω > 0.03 ✅ wmax < 0.5 ✅ 滞后（hysteresis） < 2 kJ/mol ✅ 仅满足SE不够：必须同时检查重叠度量。 4.3 块平均（Block Averaging）目的：检测长程相关性，验证采样充分性方法：将N个快照分成K组（如K=5）分别计算每组的$\Delta G$ 计算组间标准差$\sigma_{\mathrm{block}}$ 判断：若$\sigma_{\mathrm{block}} < 1.0$ kJ/mol，则采样充分。 Python实现： def block_averaging(snapshots, n_blocks=5): """块平均测试""" block_size = len(snapshots) // n_blocks dG_blocks = [] for i in range(n_blocks): block = snapshots[i*block_size : (i+1)*block_size] dG_block = calculate_free_energy(block) # 用户定义 dG_blocks.append(dG_block) std_block = np.std(dG_blocks) return std_block 五、RPQS-MSS：多轨迹短时模拟的技术细节 5.1 方法原理传统RPQS：运行4条长QM/MM MD（800 ps × 4Λ） RPQS-MSS：运行800条短QM/MM MD（20 ps × 200快照 × 4Λ）关键洞察： MM轨迹已充分采样，提供”全局”构象分布 QM/MM MD仅需”局部”平衡（相对给定MM构象）多条短轨迹高度并行化 5.2 快照选择策略间隔选择： [\Delta t_{\mathrm{snapshot}} \geq 3 \tau_{\mathrm{corr}}] 其中$\tau_{\mathrm{corr}}$是QM/MM能量差的自相关时间。实践值：本研究：Δt = 100 ps，τ_corr ≈ 20-30 ps 验证：自相关函数$C(100 \, \mathrm{ps}) < 0.05$（基本独立）均匀 vs 加权采样：均匀采样（本研究）：简单，假设MM已充分采样加权采样：可根据MM能量分布重点采样，但增加复杂度 5.3 QM/MM MD长度优化收敛时间与配体类型：配体类型平衡期采样期总长度脂肪刚性 1 ps 5 ps 5 ps 芳香刚性 5 ps 10 ps 15 ps 芳香柔性 5 ps 15 ps 20 ps 问题配体 10 ps 40 ps 50 ps 为什么芳香配体需要平衡期？图：苯甲酸QM/MM MD前10 ps的结构演化（略） 0-2 ps：π-π距离从3.8 Å缩短至3.5 Å（PM6-DH+色散更强） 2-5 ps：芳香环旋转优化堆积角度 5-10 ps：氢键网络微调 >10 ps：结构稳定保守推荐：20 ps（5 ps平衡 + 15 ps采样）适用于大多数配体。 5.4 并行化实现 Slurm作业脚本示例： #!/bin/bash #SBATCH --array=1-200 #SBATCH --ntasks=4 #SBATCH --time=2:00:00 # 快照索引 SNAP_ID=$SLURM_ARRAY_TASK_ID # 4个Λ值并行 for LAMBDA in 0.00 0.25 0.75 1.00; do mpirun -np 1 qmmm_md \ --snapshot snapshot_${SNAP_ID}.pdb \ --lambda $LAMBDA \ --time 20 \ --output traj_${SNAP_ID}_${LAMBDA}.dcd & done wait # 等待所有Λ完成资源分配： 200个数组任务：对应200个快照每任务4核：同时运行4个Λ 总核心需求：200 × 4 = 800核墙时间：~2小时（相比传统RPQS的~400小时）六、实践工作流程 6.1 完整流程图 graph TD A["1. 体系准备 配体、主体、溶剂化"] --> B["2. MM-FEP 11个λ窗口 各2 ns"] B --> C["3. 检查MM-FEP收敛 滞后<2 kJ/mol?"] C -->|否| B C -->|是| D["4. 提取快照 200个，间隔100 ps"] D --> E["5. QM/MM单点能 4个Λ × 200快照 结合态+自由态"] E --> F["6. 短QM/MM MD 每快照20 ps 4个Λ并行"] F --> G["7. MBAR分析 计算ΔG_QM/MM"] G --> H["8. 热力学循环 ΔΔG = ΔΔG_MM + 修正"] H --> I{"9. 收敛性检查 SE<0.5? Ω>0.03?"} I -->|否| J["增加快照数或 延长QM/MM MD"] J --> E I -->|是| K["10. 报告结果"] style B fill:#e1f5ff style F fill:#fff4e1 style K fill:#d4edda 6.2 关键参数总结 MM-FEP阶段：参数推荐值备注 λ窗口数 11 0, 0.1, …, 1 每窗口长度 2-4 ns 确保收敛自由能估计器 MBAR 优于TI或BAR 软核势是若有原子消失 QM/MM阶段：参数推荐值备注 Λ值 4 0, 0.25, 0.75, 1 快照数 200 可测试100-400 快照间隔 100 ps 确保独立 QM/MM MD长度 20 ps 包括5 ps平衡 QM方法 PM6-DH+ 性价比最优边界机械嵌入电子嵌入更准确但慢 6.3 常见错误及解决错误1：SE很小但结果与实验差距大原因：系统性误差（力场偏差、采样不足）解决：检查重叠度量（Ω, wmax）延长MM-FEP时间块平均测试错误2：不同Λ值的ΔG差异>2 kJ/mol 原因：Λ值太少或QM/MM MD太短解决：增加到6个Λ值（0, 0.2, 0.4, 0.6, 0.8, 1）延长QM/MM MD至50 ps 错误3：某些快照的QM/MM能量异常高原因：MM构象在QM势能面上不合理（如原子重叠）解决：检查QM区与MM区的LJ参数匹配筛选快照，排除明显不合理的构象七、高级话题 7.1 自适应Λ值选择目标：根据能量分布自动调整Λ值密度算法：初始用粗Λ网格（如4个值）计算相邻Λ的重叠度Ω 若Ω < 0.03，在该区间插入新Λ值重复至所有相邻Λ的Ω > 0.03 伪代码： def adaptive_lambda_selection(Lambda_initial, E_func, threshold=0.03): Lambda = Lambda_initial while True: overlaps = [calculate_overlap(E_func(L[i]), E_func(L[i+1])) for i in range(len(Lambda)-1)] if all(o > threshold for o in overlaps): break # 在最小重叠处插入新Λ min_idx = np.argmin(overlaps) new_L = (Lambda[min_idx] + Lambda[min_idx+1]) / 2 Lambda.insert(min_idx+1, new_L) return Lambda 7.2 温度加速采样（REUS） Replica Exchange Umbrella Sampling (REUS)：在不同Λ值运行并行副本定期尝试交换相邻Λ的构象加速Λ空间的遍历优势：克服能量势垒改善慢自由度（如mClBz的Cl翻转）劣势：实现复杂需要精心调整交换频率 7.3 机器学习加速神经网络势（NNP）替代PM6：训练：用DFT数据训练ANI-2x或SchNet 推理：单点能从1秒降至0.01秒（100倍加速）精度：接近DFT，远超PM6 挑战：需要覆盖主客体系统的训练数据外推风险（若配体结构差异大）前景：有望实现1000倍总加速（相对直接QM/MM-FEP）。八、Q&A Q1：如何判断我的体系需要QM/MM还是MM-FEP就够了？ A1：运行诊断性测试：先用MM-FEP计算2-3个代表性配体对与实验对比，若MAD < 4 kJ/mol且无系统性偏差 → MM足够若MAD > 6 kJ/mol或有系统性偏差（如所有芳香配体都偏弱）→ 考虑QM/MM 对1-2个配体用QM/MM验证，若改善显著 → 全面采用 Q2：200个快照是怎么确定的？能否用更少？ A2：通过收敛性测试确定：测试：用50, 100, 200, 400快照分别计算标准：若200 vs 400的ΔG差异<0.2 kJ/mol → 200够用经验规律：简单体系（如脂肪配体）：50-100快照中等复杂（如芳香配体）：150-200快照复杂体系（如金属蛋白）：300-500快照 Q3：如何处理带净电荷的配体？ A3：需要注意周期性边界条件的影响：问题：PME长程静电会引入配体-配体远程相互作用解决：使用大盒子（配体间距>3 nm）应用偶极修正（如Rocklin修正）对高电荷体系（ q > 2），考虑中和离子的影响本研究：配体带-1，主体带-8，盒子大且离子强度高，周期性效应<0.5 kJ/mol Q4：PM6-DH+对含金属的配体可靠吗？ A4：不可靠，半经验方法对金属的d轨道参数化较差。替代方案：使用DFT（如B3LYP-D3, TPSS-D3）成本增加~100倍，但对金属中心必要或仅金属配位壳层用QM，外围用MM（QM/QM/MM三层） Q5：如何从GROMACS的MM-FEP轨迹提取快照？ A5：使用gmx trjconv工具： # 提取每100 ps一个快照 gmx trjconv -f traj.xtc -s topol.tpr -o snapshots.pdb \ -skip 100 -sep # 生成snapshot_0.pdb, snapshot_1.pdb, ... 注意事项：只从平衡后的轨迹提取（丢弃前20%）选择lambda=0的窗口（纯MM状态）确保PBC处理正确（蛋白完整，水包围）九、总结与展望核心技术要点回顾热力学循环：分离QM修正，利用MM-FEP的成熟工具 4个Λ值：平衡精度与成本，确保相空间重叠 BAR/MBAR估计器：稳健的自由能计算，优于EXP 收敛性三要素：SE < 0.5, Ω > 0.03, wmax < 0.5 RPQS-MSS并行化：200快照×20 ps，高效利用HPC资源方法学未来 ML势替代半经验QM：100倍加速，DFT精度自适应采样：根据初步结果动态调整参数 GPU移植：QM/MM计算移至GPU，10倍单核加速云计算友好：短任务适合spot instances，降低成本从技术到应用本文提供的技术细节旨在帮助研究者：理解原理：不仅知其然，更知其所以然避坑指南：少走弯路，提高成功率定制优化：根据具体体系调整参数 QM/MM-FEP不再是“黑魔法”，而是有章可循的工程化方法。参考文献核心方法学 Olsson & Ryde (2017). J. Chem. Theory Comput., 13, 2245-2253. (4 Λ优化) Steinmann et al. (2018). J. Chem. Theory Comput., 14, 3228-3237. (RPQS-MSS) Heimdal & Ryde (2012). Phys. Chem. Chem. Phys., 14, 12592-12604. (RPQS原理) 自由能估计器 Bennett (1976). J. Comput. Phys., 22, 245-268. (BAR原始论文) Shirts & Chodera (2008). J. Chem. Phys., 129, 124105. (MBAR) 收敛性分析 Klimovich et al. (2015). J. Comput.-Aided Mol. Des., 29, 397-411. (FEP最佳实践) Shirts (2013). J. Chem. Phys., 138, 084103. (重叠度量) QM/MM基础 Senn & Thiel (2009). Angew. Chem. Int. Ed., 48, 1198-1229. (QM/MM综述) Korth et al. (2010). J. Chem. Theory Comput., 6, 3808-3816. (PM6-DH+) 工具软件 GROMACS: https://www.gromacs.org/ (MM-FEP) MOPAC: http://openmopac.net/ (PM6-DH+) pymbar: https://github.com/choderalab/pymbar (MBAR分析)

Molecular Dynamics · 2026-01-13

设计逆醛缩酶RA95的远端突变研究 - 技术附录

设计逆醛缩酶RA95的远端突变研究 - 技术附录本文档是主文档《设计逆醛缩酶RA95的远端突变研究：环动力学调控、电场优化与速率限制步骤的转移》的技术附录，包含详细的计算方法参数、完整数据表格和深度技术问答。本文信息标题：Distal Mutations in a Designed Retro-Aldolase Alter Loop Dynamics to Shift and Accelerate the Rate-Limiting Step 作者：Serena E. Hunt, Cindy Klaus, Aqza E. John, Niayesh Zarifi, Alec Martinez, Ferran Feixas, Marc Garcia-Borràs, Michael C. Thompson, Roberto A. Chica 通讯作者：Roberto A. Chica 发表时间：2025年8月13日单位：渥太华大学化学与生物分子科学系和催化研究与创新中心（加拿大）、赫罗纳大学计算与催化化学研究所（西班牙）、加州大学默塞德分校化学与生物化学系（美国）引用格式：Hunt, S. E., Klaus, C., John, A. E., Zarifi, N., Martinez, A., Feixas, F., Garcia-Borràs, M., Thompson, M. C., & Chica, R. A. (2025). Distal Mutations in a Designed Retro-Aldolase Alter Loop Dynamics to Shift and Accelerate the Rate-Limiting Step. J. Am. Chem. Soc., 147, 30723-30736. https://doi.org/10.1021/jacs.5c05134 数据可用性：分子动力学轨迹和参数文件已存放在Zenodo（DOI: 10.5281/zenodo.16281142）反应机制详解上图展示了逆醛缩酶催化的完整反应机制（通用示意），涉及6个关键中间体（I1-I6）。重要注意事项：图中标注的残基编号为示意性编号，在RA95.5-8F中，实际的催化残基是Lys83（催化亲核试剂）和Tyr51（质子供体，催化四联体成员之一）： R → I1：底物methodol与催化赖氨酸（RA95.5-8F中为Lys83）的氨基发生亲核加成，形成醇胺中间体，酪氨酸残基（RA95.5-8F中为Tyr51）通过氢键稳定过渡态 I1 → I2：Tyr36-Lys93质子转移网络重新分配电荷，使羟基成为更好的离去基并为后续构象调整预组织活性位点 I2 → I3：进一步的质子迁移和水分子协同作用生成图中标注的氨基醇（carbinolamine）I3，为C-C键断裂提供正确的几何构型 I3 → I4：C-C键断裂（本研究的焦点步骤），产生6-甲氧基-2-萘甲醛（6-MNA）与烯胺中间体（enamine）中间体，Tyr36的羟基作为质子供体稳定离去基 I4 → I5：烯胺在Tyr36提供质子并吸收水分子的条件下，转化为图示的Schiff base（I5），即赖氨酸与底物之间的亚胺中间体 I5 → I6：Schiff base水解生成第二个醇胺（I6），随后分解为丙酮并再生活性赖氨酸，完成催化循环本研究通过溶剂粘度效应实验和量子力学计算，重点研究了I3 → I4步骤（C-C键断裂）的能垒变化，以及远端突变如何通过优化局部电场方向加速这一化学转化步骤。详细计算方法分子动力学模拟参数初始结构准备晶体与模型来源本研究涉及的4个变体中，3个有实验晶体结构（RA95、RA95-Shell、RA95.5-8F），1个通过计算建模（RA95-Core）。所有变体均为无配体结合的apo形式，用于研究蛋白质在无底物状态下的构象动力学。体系是否新测 PDB编号/来源构象备注 RA95 本研究解析 9MYA Apo，空间群P21212，1.89 Å 以无底物构象提供基准 RA95-Shell 本研究解析 9MYB Apo，空间群P21212，1.77 Å 展示远端突变诱导的L1极端开放态 RA95.5-8F 文献 5AOU（Apo）5AN7（共价抑制剂） 5AOU：无底物5AN7：与二酮抑制剂共价结合 Loop L1残基58-63缺失（高度无序）5AN7用于Theozyme模型与LEF对齐 RA95（抑制剂复合物）文献 4A29 Covalent inhibitor 作为分子置换搜索模型 RA95-Core 计算模型基于9MYA，经Triad引入12个活性位点突变 Apo 因未能获得晶体，仅用于MD/LEF分析说明：除9MYA与9MYB为本研究首次报告外，其余结构均来自早期定向进化研究。本文在正文中统一称为“无底物结构”或“抑制剂复合物”，但在附录明确列出来源，以便追溯。为什么RA95-Core没有晶体结构？RA95-Core是本研究设计的回溯变体（deconvolution construct），将RA95.5-8F的远端突变回复到RA95，仅保留活性位点突变。这个变体之前未被表征，因此无现成晶体结构。为什么不对RA95-Core做晶体学？本研究重点是通过MD模拟研究动力学差异，而非静态结构，计算建模结合MD模拟可以提供足够的构象动力学信息。详细建模流程 1. RA95.5-8F缺失残基补全（MODELLER） RA95.5-8F晶体结构（5AOU）中Loop L1的残基58-63因构象异质性高而缺失电子密度，需要使用MODELLER 10.4的AutoModel模块进行补全。建模输入包括5AOU晶体结构作为模板和RA95.5-8F的完整序列，建模区域仅限于缺失的残基58-63，其他区域完全保持晶体坐标不变。软件生成5个候选模型后，选择DOPE（Discrete Optimized Protein Energy）评分最低的模型作为最终结构，并通过Ramachandran图检查Loop几何合理性以及与周围残基的立体冲突。 2. RA95-Core突变建模（Triad软件） RA95-Core变体从RA95晶体结构（9MYA）出发，使用Triad蛋白设计软件v2.1.2的sequenceDesign模块引入12个活性位点突变（V51Y、E53L、T83K、N90D、S110N、K135E、G178T、M180Y、R182M、D183N、K210L、L231M）。软件逐个引入突变，每次突变后使用Dunbrack 2010 backbone-dependent rotamer库优化周围残基的侧链构象，并应用Rosetta能量函数进行局部能量最小化以消除立体冲突。最终模型经过验证，确保突变位点的侧链几何和氢键网络符合化学规则。质子化状态预测所有变体（包括晶体结构和计算模型）统一使用H++服务器（http://biophysics.cs.vt.edu/H++）预测pH 7.0条件下的质子化状态。输入为PDB结构文件，计算参数设置为pH 7.0、内部介电常数10、外部介电常数80、盐浓度0.15 M。服务器输出每个可质子化残基（His、Glu、Asp、Lys、Arg、Cys、Tyr）的质子化状态，其中最关键的是催化残基Lys83采用去质子化形式（NH₂），作为亲核试剂参与反应；His残基的质子化根据pKa预测确定；大多数Glu/Asp残基采用去质子化形式（COO⁻）。 MD模拟参数设置参数类别具体设置软件与力场软件 Amber 2020 (http://ambermd.org/) 蛋白质力场 AMBER19SB 水模型 OPC (Optimal Point Charge, 4-point water model) 参数化工具 LEaP程序（Amber套件）体系设置盐浓度 0.15 M $\ce{NaCl}$（$\ce{Na+}$和$\ce{Cl-}$反离子中和蛋白电荷）水盒类型八面体盒子，周期性边界条件水盒边界距蛋白质表面10 Å 平衡与生产能量最小化最陡下降法，目标最大力1000 $\mathrm{kJ\cdot mol^{-1}\cdot nm^{-1}}$ 加热阶段 0 → 300 K，240 ps，NVT系综 NPT平衡 300 K，10 ns，恒压恒温生产运行每个变体1000 ns × 3次独立重复（总计3 μs/变体）时间步长 2 fs 轨迹保存频率每20 ps保存一帧（用于PCA分析）温度与压力控制温度 300 K 温控算法 Langevin恒温器压力 1 bar 控压算法 Berendsen barostat 非键相互作用静电计算 PME (Particle Mesh Ewald)，长程截断>10 Å 范德华截断 10 Å 几何约束键长约束 SHAKE算法（所有涉及氢原子的键） PCA与聚类分析分析工具参数与方法 PCA分析软件 pyEMMA 2 输入数据 Cα原子接触矩阵（contact matrix）采样每20 ps抽取一帧，约50,000帧/变体主成分 PC1和PC2解释最大方差聚类分析算法距离型k-means（pyEMMA实现）集合变量 L1-L6 Cα距离（残基58与185）采样频率每2 ns抽取一帧，共1500帧/变体构象分类关闭态（13±1 Å）、部分开放态（18±2 Å）、开放态（23±3 Å）质心结构每个聚类的几何中心结构，用于后续LEF和QM计算局部电场（LEF）计算方法基本设置参数设置与说明计算软件 TUPÃ v1.0（J. Comput. Chem. 2022, 43, 1113-1119）专用于分子模拟中的电场分析计算点位置与RA95.5-8F共价抑制剂（PDB: 5AN7）中羟基氧原子位置重合代表C-C键断裂过渡态的关键位置（该氧原子在反应中积累部分负电荷）包含残基整个蛋白质，不含催化残基Lys83和Tyr51原因：它们直接参与化学反应，其电场贡献通过QM计算单独处理输出参数 1. 电场强度（矢量模$|\vec{E}|$，单位a.u.）2. 电场方向（三维矢量$(E_x, E_y, E_z)$）构象采样从MD轨迹中提取质心结构：- RA95：关闭态（主要）、开放态（次要）- RA95.5-8F：关闭态、部分开放态、开放态（三态平衡）电场对齐方法为确保不同变体/构象的电场可比较，所有质心结构都与RA95.5-8F共价抑制剂晶体结构（PDB: 5AN7）对齐。特别说明：对齐以RA95.5-8F的Lys83与Tyr51主链原子为参考，同时保留PDB:5AN7中共价抑制剂的几何只是为了定义活性口袋坐标；MD/LEF计算全程处于apo态，无底物或抑制剂参与。虽然MD模拟在apo状态（无配体）下进行，但对齐时使用5AN7作为参考坐标系，以确保LEF计算点的位置一致：参考结构：PDB 5AN7（RA95.5-8F与二酮抑制剂共价复合物晶体结构）对齐方法：将MD质心结构（apo态）对齐到5AN7，对齐时使用催化残基Lys83和Tyr51 对齐算法：最小化RMSD（均方根偏差） LEF计算点位置：与5AN7中抑制剂羟基氧原子位置重合（代表C-C键断裂过渡态的关键位置） Theozyme模型对齐：将theozyme模型（包括Lys83、Tyr51、methodol底物）手动对齐到已对齐的各变体蛋白质结构电场验证：网格点分析为验证单点计算的代表性，在活性位点进行了网格扫描：参数设置网格中心羟基氧原子位置网格范围沿x/y/z轴各±2 Å 网格间距 1 Å 网格总点数 125个点（5×5×5立方体）主要结论确认单点电场能有效描述活性位点腔内LEF趋势（见补充图S10）电场贡献分析计算各残基对LEF变化的贡献： [\Delta\vec{E}{\text{res}} = \vec{E}{\text{RA95.5-8F}}^{\text{res}} - \vec{E}_{\text{RA95-Core}}^{\text{res}}] 其中$\vec{E}_{\text{variant}}^{\text{res}}$是单个残基在该变体中产生的电场矢量。贡献百分比定义为： [\text{Contribution} = \frac{ \Delta\vec{E}_{\text{res}} }{\sum_{\text{all res}} \Delta\vec{E}_{\text{res}} } \times 100\%] 主要发现：柔性环贡献（L1、L2、L6、L7）：77% 远端突变位点直接贡献：8% 其他区域：15% 电场方向比较方法余弦相似度（衡量两个电场矢量方向的一致性）： [\cos\theta = \frac{\vec{E}_1 \cdot \vec{E}_2}{ \vec{E}_1 \vec{E}_2 }] $\cos\theta = 1$：完全平行（最优） $\cos\theta = 0$：垂直（无贡献） $\cos\theta = -1$：反平行（最差）参考系选择：RA95.5-8F关闭态的LEF方向作为“最优参考”（因为其催化效率最高）夹角计算： $\theta = \arccos\left(\frac{\vec{E}_{\text{variant}} \cdot \vec{E}_{\text{ref}}}{|\vec{E}_{\text{variant}}||\vec{E}_{\text{ref}}|}\right)$ 量子力学计算方法 Theozyme模型构建参数详细说明基础结构 PDB: 5AN7（RA95.5-8F与二酮抑制剂共价复合物）模型组成 1. Lys83：催化亲核试剂（截取至Cβ）2. Tyr51：氢键供体（截取至Cβ）3. Methodol底物片段：包含待断裂的C-C键及carbinolamine中间体结构编辑 PyMOL手动编辑：- 补全截断末端氢原子- 调整键序使模型处于carbinolamine中间体几何- 生成反应物与过渡态初猜结构总原子数约50-60个原子（截取后的精简模型）电荷与多重度根据carbinolamine中间体质子化状态确定 DFT计算设置参数类别具体设置所用软件 Gaussian 16 Revision C.01 所用泛函 (U)B3LYP（非限制性B3LYP）适用于可能的开壳层体系，如过渡态基组选择 6-31G(d)（Pople基组，包含d极化函数）平衡计算精度与成本溶剂模型 CPCM（Conductor-like Polarizable Continuum Model）溶剂介电常数 $\varepsilon_r = 8.93$（二氯甲烷）模拟蛋白质活性位点内部低介电环境溶剂腔半径 UFF（Universal Force Field）原子半径几何优化与频率计算步骤方法反应物优化 (U)B3LYP/6-31G(d)/CPCM- 优化算法：Berny- 收敛标准：最大力 < 0.00045 hartree/bohr 过渡态搜索 (U)B3LYP/6-31G(d)/CPCM- 反应坐标：C-C键断裂- TS优化算法：Berny- 初猜：手动拉伸C-C键生成频率分析在优化几何上计算Hessian矩阵：- 反应物频率检查：无虚频（0个负本征值），确认为稳定结构- 过渡态频率检查：仅1个虚频（对应C-C键断裂模式）。- 频率数据的主要用途：提取零点能（ZPE）用于能垒校正 IRC计算（可选）内禀反应坐标验证TS连接正确的反应物和产物过渡态是反应坐标上的一阶鞍点，唯一的虚频验证了结构沿反应方向不稳定、垂直方向稳定外部电场施加（FDB方法） FDB（Field-Dependent Barrier）方法：通过施加不同强度和方向的外部电场，计算能垒对电场的依赖关系。参数设置电场来源 TUPÃ计算得到的各变体/构象LEF矢量 Gaussian输入 Field=X,Y,Z关键词例如：Field=0.001,0.002,0.003（单位：a.u.）电场强度范围 0（零场参考）至实际LEF强度（约0.008 a.u.）电场方向使用实际LEF矢量方向计算流程 1. 零场条件：计算基准能垒2. 施加各变体LEF：重新优化TS和反应物3. 计算场依赖能垒：$\Delta E^\ddagger(F)$ 能垒计算与基组验证能垒定义公式电子能垒 $\Delta E^\ddagger_{\text{elec}} = E_{\text{TS}} - E_{\text{reactant}}$ 零点能校正 $\Delta E^\ddagger_{\text{ZPE}} = \Delta E^\ddagger_{\text{elec}} + \Delta\text{ZPE}$ 最终能垒表格中报告的是ZPE校正后的值基组依赖性验证（补充表S5）：基组零场能垒 RA95-Core关闭态 RA95.5-8F关闭态能垒降低 6-31G(d) 15.4 kcal/mol 6.9 kcal/mol 1.6 kcal/mol 5.3 kcal/mol 6-31+G(d,p) 13.2 kcal/mol 5.2 kcal/mol -0.2 kcal/mol 5.4 kcal/mol 6-311+G(2d,2p) 11.6 kcal/mol 3.2 kcal/mol -1.6 kcal/mol 4.8 kcal/mol 关键结论：虽然绝对能垒值随基组变化，但相对趋势一致（RA95.5-8F能垒比RA95-Core低约5 kcal/mol），支持结论的稳健性。量子力学能垒计算流程构建化学子系统并定义反应坐标：从PDB 5AN7中截取Lys83、Tyr51及与之共价连接的methodol抑制剂片段，补全末端氢原子并在PyMOL中手动编辑键序，使模型保持carbinolamine中间体几何；随后针对待断裂的C-C键生成反应物与过渡态初猜。 DFT优化与频率校验：使用(U)B3LYP/6-31G(d)/CPCM在Gaussian16中分别优化反应物和过渡态，收敛后进行频率分析以确认反应物无虚频、过渡态仅存在一条与C-C断裂相关的虚频，并提取零点能用于能垒校正。加载蛋白来源电场并扫描能垒：将TUPÃ得到的局部电场矢量（各构象平均值）转化为Gaussian的Field=X,Y,Z输入，分别施加在Theozyme模型上，再次求取$E_\text{TS}$与$E_\text{reactant}$；必要时调节电场方向与强度做灵敏度测试，从而量化不同构象、不同变体的能垒变化。验证外推并映射回蛋白背景：把带电场的Theozyme结构重新与RA95-Core及RA95.5-8F的代表构象对齐，确保电场方向与蛋白质框架一致，再将量化得到的$\Delta E^\ddagger$回填到图5d及附录表格，与实验$k_3$提升倍数做对照，验证远端突变通过电场方向优化实现化学加速。完整数据表格电场强度数据局部电场强度（单位：a.u.，$1~\mathrm{a.u.} = 5.14 \times 10^{11}~\mathrm{V/m}$）变体构象状态平均电场强度标准偏差 RA95-Core 关闭态 0.0081 0.0012 RA95-Core 开放态 0.0077 0.0015 RA95.5-8F 关闭态 0.0083 0.0011 RA95.5-8F 开放态 0.0058 0.0018 关键观察：电场强度在不同变体间处于相似的量级（0.006-0.008 a.u.范围）开放构象的电场强度略低于关闭构象标准偏差表明电场存在构象依赖的涨落，这与MD模拟观察到的构象异质性一致电场方向数据电场矢量夹角（相对于RA95.5-8F关闭态的电场方向）比较体系构象状态夹角（度）余弦相似度解释 RA95.5-8F关闭 vs RA95-Core关闭关闭 54° 0.59 中等偏差 RA95.5-8F关闭 vs RA95-Core开放开放 53° 0.60 中等偏差 RA95.5-8F关闭 vs RA95.5-8F开放开放 20° 0.94 高度一致关键发现： RA95-Core与RA95.5-8F的电场方向偏差约54°的角度误差这个方向差异导致C-C键断裂能垒相差1.5-5 kcal/mol RA95.5-8F内部的开放-关闭转换对电场方向影响较小（仅20°） C-C键断裂能垒完整数据量子力学计算的活化能垒 $\Delta E^\ddagger$（单位：kcal/mol）体系构象状态能垒相对零电场降低相对RA95-Core降低零电场参考，模型TS（无蛋白） - 15.3 0 - RA95-Core 关闭态 6.9 8.4 0 RA95-Core 开放态 7.3 8.0 0 RA95.5-8F 关闭态 1.6 13.7 5.3 RA95.5-8F 开放态 5.8 9.5 1.5 RA95-Shell 关闭态 7.1 8.2 -0.2 关键解读： RA95.5-8F关闭态能垒最低（1.6 kcal/mol），比零电场参考降低13.7 kcal/mol，解释了其化学转化速率最快远端突变的效应完全取决于活性位点环境： RA95-Core → RA95.5-8F：能垒降低1.5-5.3 kcal/mol（显著） RA95 → RA95-Shell：能垒几乎无变化（-0.2 kcal/mol），与实验观察到的$k_\text{cat}$降低一致构象依赖性显著：开放态能垒比关闭态高4.2 kcal/mol，说明化学转化优先在关闭构象中发生，这解释了为何关闭态对催化至关重要 LEF残基贡献分析对电场变化贡献最大的残基区域（RA95.5-8F vs RA95-Core）残基区域包含残基贡献百分比特征 Loop L1 52-66 28% 柔性环，远端突变诱导构象变化 Loop L6 180-190 22% 柔性环，包含催化残基Tyr180 Loop L2 85-95 15% 活性位点邻近区域 Loop L7 210-220 12% 柔性环远端突变位点分散 8% 贡献较小其他残基 - 15% 分散贡献关键发现：柔性环L1和L6贡献了50%的电场变化远端突变位点本身贡献仅8% 这证明远端突变是通过改变环动力学间接优化电场，而非直接静电作用补充图S9：各变体的局部电场矢量（MD质心结构与theozyme C-C键断裂过渡态对齐）。活性位点结构展示了各变体和构象态的LEF矢量大小和方向：(a) RA95-Core关闭态，(b) RA95-Core开放态，(c) RA95.5-8F关闭态，(d) RA95.5-8F开放态。Theozyme过渡态模型（包括Lys83、Tyr51和methodol底物）以青色棒状表示。每个酶的质心结构都与RA95.5-8F结合二酮抑制剂的晶体结构（PDB: 5AN7）对齐，其中Lys83、Tyr51和抑制剂以绿色棒状表示。Theozyme结构与活性位点残基及抑制剂的对齐方法详见Methods部分。深度Q&A Q1：这项研究对从头酶设计和深度学习方法有什么启示？ A1：文章提醒我们，传统的”只在活性位点堆叠过渡态稳定化残基“的思路远远不够。RA95-Core已经拥有理想的Lys83-Tyr51-Asn110-Tyr180催化四联体和氢键网络，却仍落后于加入远端突变的RA95.5-8F 14倍，说明忽视环动力学、活性位点开放性与产物释放等步骤会限制整体效率。类似地，基于单一构象优化的Rosetta流程无法反映2态到3态的群体转移，而只调节电荷分布也无法把电场方向与反应偶极对齐。针对未来的从头设计，需要把整条催化循环都纳入优化：底物进入、活性位点关闭、化学转化、开放、产物释放和酶再生必须在速率上取得平衡，环的固有柔性与能垒更应成为设计目标之一。此外，远端突变的效应高度依赖背景，需要像本文的”Core/Shell“拆分那样明确上下文才能评估外显性。显式建模环动力学与电场方向：设计流程应增加对构象系综与局部电场方向的约束，而不只是静态构型维持背景拆分以识别外显性：延续”Core vs Shell“思想，可以帮助筛查哪些突变只有在特定活性位点出现时才有效多尺度证据共同验证：晶体学、MD、粘度实验与QM在本文形成闭环，未来的计算设计也应在迭代中结合这些手段，避免仅依赖单一模型 Q2：如何评价本文电场计算方法的优缺点？ A2：本研究采用经典静电模型（TUPÃ软件）结合量子力学theozyme计算的双层策略，既保证了计算效率，又通过多重验证确保了结果可靠性。这种方法在计算成本与物理真实性之间取得了平衡，但也存在近似带来的局限。主要优点计算效率高且可扩展：TUPÃ基于经典Coulomb定律和Amber力场点电荷，可快速处理上千个MD构象快照。相比QM/MM全蛋白计算，节省数个数量级的计算时间，使研究者能系统扫描不同变体、不同构象态的电场分布。多层级验证机制：研究设计了三重验证以弥补经典近似的不足——125点网格扫描（5×5×5立方体，±2 Å范围）证明单点LEF能代表活性位点腔的电场趋势；三套基组交叉验证（6-31G(d)、6-31+G(d,p)、6-311+G(2d,2p)）表明虽然绝对能垒随基组变化，但RA95.5-8F相对RA95-Core的能垒降低量稳定在4.8-5.4 kcal/mol；FDB方法的电场扫描量化了能垒对电场强度和方向的依赖关系，建立了LEF与催化效率的因果链。物理图像清晰：将蛋白质环境简化为外部电场矢量施加在theozyme模型上，使复杂的蛋白-底物相互作用降维为可解释的”电场方向-过渡态偶极对齐“问题。这种简化既保留了核心物理机制（远程静电作用），又避免了QM/MM中活性区与MM区界面的处理难题。主要局限点电荷近似的固有误差：Amber力场将电子密度简化为原子中心的固定点电荷，忽略了电荷转移、极化效应和多极矩。蛋白质中的芳香残基（如Tyr、Phe）、质子化氢键网络的电荷分布实际是连续的，点电荷模型无法捕捉这些细节对LEF的贡献。虽然作者通过网格扫描验证了单点计算的代表性，但电场绝对值的精度仍存疑。 theozyme模型的截断效应：为使QM计算可行，研究将活性位点简化为约50-60个原子（Lys83、Tyr51和methodol片段），截断位置在Cβ处并补氢饱和。这种截断丢失了侧链与主链的耦合、周围残基的范德华挤压以及水分子的动态氢键网络。虽然CPCM连续溶剂模型（$\varepsilon_r = 8.93$）试图补偿蛋白介电环境，但静态介电常数无法反映蛋白构象涨落引起的介电响应。构象采样的代表性：电场计算仅基于MD聚类的质心结构（每个构象态1个代表），未考虑构象系综内部的电场涨落。虽然标准差数据（如RA95-Core关闭态0.0081±0.0012 a.u.）表明电场存在构象依赖的涨落，但单一质心结构可能无法完全代表该构象态的平均电场。理想情况下应对每个聚类的多个构象计算LEF并取系综平均，但这会显著增加计算成本。方法选择的权衡本研究的目标是比较不同变体间的相对趋势而非预测绝对能垒，因此选择经典LEF+theozyme QM的组合是合理的。关键验证在于基组依赖性测试证明了相对趋势的稳健性：即使绝对能垒从6-31G(d)的15.4 kcal/mol降到6-311+G(2d,2p)的11.6 kcal/mol，RA95.5-8F相对RA95-Core的优势始终保持约5 kcal/mol。这表明方法的系统误差在变体间基本抵消，足以支持”远端突变通过优化电场方向降低能垒“的核心结论。若要获得更高精度，未来可考虑QM/MM动力学（如CP2K或Amber/Gaussian接口）直接模拟蛋白-底物复合物的反应路径，或使用极化力场（如AMOEBA）改进电场计算，但计算成本将增加数个数量级，可能超出当前研究的必要性。 Q3：图3中为什么用PCA降维而不是直接用L1-L6距离作为集体变量画自由能面？L1-L6距离是如何计算的？ A3：这是一个方法学问题，作者的策略是先让PCA捕捉全局运动，再用聚类+L1-L6距离做物理解释，而不是直接用单一距离画自由能面。这种顺序避免了预设集体变量带来的信息损失，也让图3能够同时呈现比例变化与结构实例。分析流程 Methods 部分明确写到：PCA的输入是每20 ps抽样的Cα接触矩阵（约5万帧），输出PC1/PC2后在pyEMMA中用距离型k-means进行聚类，再从每2 ns抽样的1500帧里计算残基58与185的Cα距离及标准差，作为各cluster的统计特征。因此L1-L6距离是”事后解释”指标而非降维输入，图3a中的”13±1 Å”、”23±3 Å”都是聚类后求得的均值±标准差。为什么不直接用距离画自由能面 PCA→聚类→距离三步法遵循”先探索、再分类、后解释“的逻辑：PCA无偏发现主变化模式，聚类把2个态变为3个态的群体转移刻画出来，然后用L1-L6距离给每个群体贴上物理标签。如果直接以单一距离作为集体变量画自由能面，只能得到$F(d) = -k_B T \ln P(d)$的单峰或双峰曲线，但会丢掉其他环（L2、L6、L7）的协同运动，闭合↔开放的真实路径也难以还原。更重要的是，FEL上的极值与晶体中观察到的构象未必一一对应。何时需要FEL或增强采样在小肽或简化体系中，确实可以直接沿1-2个CV画FEL；但RA95需要区分多个环的联合运动，本研究目标只是证明远端突变把体系从2个态推到3个态，因此以PCA+聚类的方式展示比例变化已经足够稳健。若未来想获得严谨的自由能面，则需要在L1-L6距离等CV上施加metadynamics或umbrella sampling偏置，使用WHAM重构自由能，同时验证采样是否收敛，这将显著增加计算成本。关键技术参数本研究使用pyEMMA 2进行PCA和k-means，PCA输入为Cα接触矩阵；统计阶段的距离定义为残基58 Cα与185 Cα的欧氏距离。这一套参数保证聚类既含全局构象信息，又能用L1-L6距离这样直观尺度描述。由于PC1与该距离高度相关（关闭态约13 Å，开放态约23 Å），作者最终得到的聚类标签与图3中的实验观察保持一致。何时考虑FEL或增强采样：采样自由度少且充分时：沿主要CV绘制FEL可直接读取能垒高度需要定量能垒时：在L1-L6距离等CV上施加metadynamics或umbrella sampling，再用WHAM重建自由能多环耦合体系时：先用PCA/聚类定位主要运动，再视需要进行增强采样是更稳健的工作流 Q4：本研究选择的几个特定突变体（RA95-Core、RA95-Shell、RA95.5-8F）是否足以支持“远端突变通过环动力学调控催化”这一general规律？ A4：这是一个非常重要的批判性问题，涉及研究设计的内部效度与外部效度的权衡。本研究的变体设计策略在揭示RA95系统中远端突变的作用机制方面具有很强的内部效度，但其普适性（外部效度）确实需要更多证据支持。本研究设计的优势完整的效应分离：通过回复突变策略构建RA95-Core和RA95-Shell，研究者首次完全分离活性位点与远端突变的贡献。从RA95.5-8F出发，分别将远端或活性位点突变回复到RA95原始序列，使研究者能够系统比较三条路径并定量解析外显性效应，证明远端突变的催化效应完全依赖于活性位点环境。多尺度证据链：研究整合了结构（X-ray）、动力学（MD）、功能（酶活）、动力学（溶剂粘度）和电子结构（QM）五个层面的证据，形成自洽机制链：远端突变 → 环L1/L6构象分布改变 → 活性位点开放性增加 + 电场方向优化 → 产物释放加速（$k_4$提高4倍）+ 化学转化加速（$k_3$提高100倍）→ 速率限制步骤转移。定向进化的天然实验：RA95.5-8F是经过19轮定向进化自然选择出来的，22个突变（含10个远端突变）代表真实进化压力下被”验证“的组合。普适性的局限单一酶系统：所有分析都基于RA95这一个人工设计的逆醛缩酶系统。尽管作者在Discussion中引用了其他酶（如DHFR、β-lactamase）的远端突变案例，但尚未在其他酶系统中重复Core/Shell拆分实验。因此，”远端突变通过环动力学调控电场方向进而影响催化“这一机制是否适用于：其他反应类型（氧化还原、转移酶等）其他支架蛋白（TIM桶、Rossmann折叠等）天然进化的酶（而非从头设计）仍需进一步验证。远端突变集合的代表性：RA95.5-8F的10个远端突变是定向进化的产物，但我们不知道是否还有其他远端突变组合也能达到类似效果。缺少饱和突变或深度突变扫描，无法评估”远端突变 → 环动力学”关系的覆盖率。构象变化的多样性：L1和L6环的动力学变化是本研究观察到的主要现象，但其他酶可能通过不同的构象变化（如结构域重排、二聚化界面调整）实现远端调控。环动力学只是远端突变作用机制的一种可能模式，而非唯一模式。支持普适性的证据尽管存在上述局限，一些证据暗示该机制可能具有一定普适性：文献中的类似案例： DHFR（二氢叶酸还原酶）：远端突变M42W/G121V通过改变Met20 loop动力学影响催化效率，与本研究的环调控机制相似 β-lactamase：远端位点突变影响Ω-loop的柔性，进而改变底物结合和产物释放 P450酶：远端突变调控F/G helix和B′-C loop的动力学，影响底物识别和催化这些案例表明环动力学调控可能是一个跨越不同酶家族的共同策略。物理机制的普遍性：活性位点开放/关闭转换是许多酶催化循环的必要步骤局部电场对过渡态稳定化的影响是普遍的物理原理构象熵-焓补偿是蛋白质功能的基本特征因此，即使具体的环或残基不同，”远端突变 → 构象动力学 → 电场/结合效率优化“这一因果链在其他酶中也可能成立。验证普适性需要的证据要真正确立这一机制的普适性，需要：跨酶系统验证：在至少3-5个不同反应类型、不同折叠类型的酶中重复Core/Shell拆分实验深度突变扫描：系统性地测试所有远端位点的单点和组合突变，绘制”远端突变 → 环动力学 → 催化效率”的完整景观计算预测验证：开发能够从序列预测环动力学变化和电场方向的机器学习模型，并在实验中验证进化分析：比较自然酶的同源序列，检验进化中固定的远端位点是否富集在环附近并影响构象动力学结论本研究为RA95系统提供了高质量、多尺度的机制解析，其设计策略（Core/Shell分离）和方法学组合（结构+动力学+功能+QM）具有示范意义。然而，从单一案例到general规律的跨越需要更多酶系统的验证。更准确的表述应该是： “远端突变可以通过调控环动力学来优化催化循环“（可能的机制之一）而非”远端突变必然通过环动力学调控催化“（唯一机制）这种审慎的态度既尊重本研究的贡献，也为未来研究留下了清晰的方向。正如作者在局限性部分指出的，需要在更多天然酶和设计酶中验证这一机制的普适性。参考主文档更多背景信息、核心结果和结论，请参阅主文档：《设计逆醛缩酶RA95的远端突变研究：环动力学调控、电场优化与速率限制步骤的转移》

Molecular Dynamics · 2025-12-30

设计逆醛缩酶RA95的远端突变研究：环动力学调控、电场优化与速率限制步骤的转移

设计逆醛缩酶RA95的远端突变研究：环动力学调控、电场优化与速率限制步骤的转移本文信息标题：Distal Mutations in a Designed Retro-Aldolase Alter Loop Dynamics to Shift and Accelerate the Rate-Limiting Step 作者：Serena E. Hunt, Cindy Klaus, Aqza E. John, Niayesh Zarifi, Alec Martinez, Ferran Feixas, Marc Garcia-Borràs, Michael C. Thompson, Roberto A. Chica 通讯作者：Roberto A. Chica 发表时间：2025年8月13日单位：渥太华大学化学与生物分子科学系和催化研究与创新中心（加拿大）、赫罗纳大学计算与催化化学研究所（西班牙）、加州大学默塞德分校化学与生物化学系（美国）引用格式：Hunt, S. E., Klaus, C., John, A. E., Zarifi, N., Martinez, A., Feixas, F., Garcia-Borràs, M., Thompson, M. C., & Chica, R. A. (2025). Distal Mutations in a Designed Retro-Aldolase Alter Loop Dynamics to Shift and Accelerate the Rate-Limiting Step. J. Am. Chem. Soc., 147, 30723-30736. https://doi.org/10.1021/jacs.5c05134 数据可用性：分子动力学轨迹和参数文件已存放在Zenodo（DOI: 10.5281/zenodo.16281142）摘要已知远离酶活性位点的氨基酸残基会影响催化，但它们对催化循环的机制贡献仍然知之甚少。本研究通过计算设计的逆醛缩酶RA95的定向进化，系统研究了远端突变和活性位点突变的结构、功能和机制影响。活性位点突变使催化效率提高3600倍，而单独的远端突变没有带来改善。但当远端突变与活性位点突变结合时，催化效率进一步提高6倍，展示了显著的外显性效应（epistatic effect）。X射线晶体学和分子动力学模拟揭示，远端突变通过改变环动力学促进活性位点开放。动力学溶剂粘度效应和电场计算表明，远端突变使化学转化加速100倍，将速率限制步骤从化学转化转移到产物释放，而后者又因活性位点开放性增加而进一步加速。这些发现确立了远端残基在塑造活性位点环境和促进高效催化循环所必需的结构动力学中的关键作用。核心结论远端突变的催化效应依赖于优化的活性位点并可额外带来6倍效率增益：单独对RA95无益甚至有害，但与活性位点突变协同可显著提升催化效率通过改变环L1和L6的动力学促进活性位点开放：将构象景观从两个主要构象态转变为包含三类构象的分布，富集开放和部分开放构象化学转化加速100倍：优化局部电场方向，降低C-C键断裂能垒1.5-5 kcal/mol 速率限制步骤转移：从RA95-Core的化学转化限制转移到RA95.5-8F的产物释放限制同时改善催化效率、补偿稳定性损失：部分恢复活性位点优化导致的热稳定性下降图文摘要：远端突变通过调控催化循环实现效率提升上图展示了RA95、RA95-Core和RA95.5-8F三个关键变体的结构演化及其对催化循环能量景观的影响。活性位点突变（洋红色球）优化了催化四联体，显著降低了过渡态能垒（[ES]‡）。远端突变（青色球）进一步调控了环动力学，改变了整个催化循环的能量分布：降低底物结合（ES）和产物释放（EP）的能垒，同时通过优化局部电场进一步降低过渡态能垒。这种协同效应最终实现了速率限制步骤从化学转化转移到产物释放，并将整体催化效率提高6倍。背景远离活性位点的氨基酸残基（distal residues）对酶催化的影响已被广泛观察到，但其具体的机制贡献一直是酶学研究中的难题。这些远端残基的突变可以在自然进化中增强催化活性、在从头酶设计中提高催化效率、在人类疾病突变中破坏催化活性。然而，目前的研究存在两大局限：混杂效应难以区分：大多数研究在分析远端突变时同时存在活性位点突变，难以判断其效应是直接作用还是外显性相互作用，无法清晰分离各自的贡献机制理解不足：远端突变对催化循环各步骤（底物结合、化学转化、产物释放等）的机制影响在很大程度上被忽视，阻碍了我们全面理解这些突变如何影响反应坐标上的不同步骤并贡献整体催化效率计算设计的逆醛缩酶RA95是研究远端突变的理想模型系统。初始设计的$k_\text{cat}$仅为$5 \times 10^{-5}~\mathrm{s^{-1}}$，但经过19轮定向进化引入22个突变后，最终变体RA95.5-8F的活性提高了5个数量级（10万倍）。需要特别强调的是，这一漫长的定向进化流程已经在早期工作（参考文献14、15）中完成，本文并未重新开展定向进化实验，而是直接基于这些既有突变来设计Core/Shell组合，借此在同一结构背景下拆解活性位点与远端突变的效应。不同于其他从头设计酶，RA95的进化涉及彻底的活性位点改造：原始催化亲核试剂Lys210被Lys83取代，引入3个额外残基（Tyr51、Asn110、Tyr180）形成催化四联体（catalytic tetrad），通过氢键网络增强催化。进化还触发了邻近表面环的构象转变，以缓解与新底物结合位置的空间冲突。图1：RA95逆醛缩酶的演化与变体设计 (a) Methodol逆醛缩反应的催化机理示意，颜色依照底物（粉色）与产物（灰色）区分 (b) 19轮定向进化中，活性位点突变以洋红色标示、远端突变以青绿色标示，折线图用黑色曲线显示$k_\text{cat}/K_M$从0.52提升至$1.2\times10^{4}~\mathrm{M^{-1}\,s^{-1}}$ (c) RA95（橙色）与RA95.5-8F（紫色）的活性位点叠加，Loop L1、L6以同色突出，便于比较差异 (d) RA95.5-8F晶体结构中，Loop L1残基58-63缺失电子密度（灰色虚线框），强调其高度无序 (e) 变体构建示意沿用橙色（RA95）、青绿色（远端突变）、洋红（活性位点突变）的标记规则，清晰展示Core/Shell分离策略创新点创新变体设计策略：创建RA95-Core（仅活性位点突变）和RA95-Shell（仅远端突变）两个关键变体，首次完全分离远端突变和活性位点突变的效应，消除了以往研究中的混杂因素多尺度机制整合：整合X射线晶体学、分子动力学模拟、溶剂粘度效应实验和量子力学计算四种互补方法，从结构、动力学、动力学和静电四个层面系统揭示远端突变的作用机制速率限制步骤转移的定量证据：通过溶剂粘度效应实验首次定量证明远端突变将速率限制步骤从化学转化转移到产物释放，明确了远端突变在催化循环中的关键角色外显性效应的全面解析：揭示远端突变的催化效应完全依赖于优化的活性位点，在次优活性位点中反而有害，为理解突变间的非线性相互作用提供了清晰案例电场方向优于强度的发现：证明远端突变主要通过改变局部电场的整体方向取向而非强度来稳定过渡态，且这种效应是通过调控环动力学间接实现的，而非直接静电作用研究内容整体研究逻辑 graph TB subgraph S1["1.研究设计"] A["RA95原始设计 活性极低"] B["19轮定向进化 累积22个突变"] C["RA95.5-8F 活性↑10万倍"] A --> B --> C end subgraph S2["2.拆分突变集合"] direction LR D["RA95-Core 仅12个活性位点突变"] E["RA95-Shell 仅10个远端突变"] F["Core+Shell=RA95.5-8F 可分离外显性效应"] D --> F E --> F end subgraph S3["3.多尺度证据"] direction TB G["X射线晶体学 捕获L1/L6静态差异"] H["MD模拟 2个态→3个态的构象重塑"] I["溶剂粘度实验 判定化学/产物步骤限速"] J["QM & LEF计算 量化电场方向"] end subgraph S4["4.机制链路"] direction LR K["远端突变→L1/L6灵活度↑ 关闭/开放/部分开放平衡"] L["构象平衡→电场方向与活性位点开放性协同 化学转化步骤更快、产物释放更顺畅"] M["化学转化不再限速 瓶颈转移至产物释放"] K --> L --> M end S1 --> S2 --> S3 --> S4 核心策略：精巧的变体设计本研究的核心挑战是分离远端突变和活性位点突变的各自效应。以往的研究在分析远端突变时，往往同时存在活性位点突变，无法区分哪些催化提升来自远端突变本身，哪些来自它与活性位点突变的协同作用（外显性效应）。为了解决这个问题，研究者从最终的进化变体RA95.5-8F出发，通过回复突变策略构建了两个关键变体：将远端突变回复到RA95原始序列得到RA95-Core（仅保留12个活性位点突变），将活性位点突变回复得到RA95-Shell（仅保留10个远端突变）。这种”加法实验”设计在同一个蛋白支架上首次实现了完全的效应分离。突变定义标准：活性位点突变限定为距离Lys83共价二酮抑制剂8 Å以内的残基集合，远端突变则划归为超出该8 Å球面的外围残基。这个8 Å截断值不是任意选择的，而是基于结构分析：它包括与抑制剂直接接触的残基（第一壳层）和与第一壳层残基相互作用的残基（第二壳层），确保活性位点的微环境被完整定义。这种分类方法使得研究者能够系统性地回答：远端突变在优化的活性位点存在时是否有益？在次优活性位点中又如何？变体包含突变构建方法 RA95 0个（原始设计）计算从头设计 RA95-Core 12个活性位点突变 RA95.5-8F远端突变回复到RA95 RA95-Shell 10个远端突变 RA95.5-8F活性位点突变回复到RA95 RA95.5-8F 12个活性位点 + 10个远端突变 19轮定向进化最终变体值得注意的是，上述四个变体的序列都直接源自既有的定向进化成果：19轮实验早在前期工作中完成（文献14、15详述，由Hilvert组在苏黎世联邦理工学院于2013-2017年完成），本文作者Chica组只是在这些现成突变的基础上进行回溯构建与机理分析，没有新增的定向进化实验步骤。这是典型的机制研究follow-up工作：前人团队完成酶演化优化，本文团队负责深入解析作用机制。功能效应：外显性主导的催化增强酶活性测定揭示了出乎意料的结果。如果远端突变和活性位点突变的效应是简单相加的，那么RA95.5-8F的活性应该等于RA95-Core加上RA95-Shell的贡献。但实验结果显示，远端突变的效应高度依赖于活性位点的背景环境。催化效率的系统性提升数据揭示了突变间的复杂相互作用：活性位点突变是主要驱动力：RA95-Core相比RA95效率提高3600倍（$k_\text{cat}/K_M$从0.52提升至1900 M$^{-1}$s$^{-1}$），证明催化四联体的构建是活性提升的关键。而RA95-Shell的$k_\text{cat}$反而呈现约2倍的下降趋势（从0.00027降至0.00016 s$^{-1}$），表明远端突变单独作用时不仅无益甚至有害——远端突变在次优活性位点中是破坏性的协同效应显著：RA95.5-8F比RA95-Core额外实现整体活性再提升6倍的协同增益（$k_\text{cat}$从0.32提升至$4.6~\mathrm{s^{-1}}$），证明远端突变在优化的活性位点环境中才能发挥催化增强作用外显性效应惊人：将活性位点突变引入RA95-Shell（形成RA95.5-8F），$k_\text{cat}$增加29,000倍（从0.00016增至4.6 s$^{-1}$），远超各突变集合的简单加和效应。远端突变和活性位点突变之间存在非线性的协同效应酶变体 $k_\text{cat}$ ($\mathrm{s^{-1}}$) $k_\text{cat}/K_M$ ($\mathrm{M^{-1}\,s^{-1}}$) 相对RA95提升 RA95 0.00027 0.52 1× RA95-Shell 0.00016 0.37 0.7× RA95-Core 0.32 1,900 3,600× RA95.5-8F 4.6 12,000 23,000× 为了验证活性位点中哪些残基最重要，研究者对催化四联体（Lys83、Tyr51、Asn110、Tyr180）进行了单点回复突变分析。结果显示Tyr51是最关键的残基，其Y51F突变使催化效率出现约12倍的衰减，N110S和Y180F分别带来约3倍和6倍的下降。这解释了为什么远端突变能够通过优化Tyr51的定位（位移1.4 Å）来增强催化——即使微小的骨架调整也能显著影响关键残基的功能。活性提升往往伴随着蛋白稳定性的损失，这是酶设计中的经典权衡。远端突变对RA95单独作用时$T_m$降低约2°C（轻微不利），但活性位点突变对RA95的影响是$T_m$降低15°C（高度不稳定）——这是因为催化四联体的引入破坏了原始设计的结构稳定性。当远端突变引入RA95-Core后，$T_m$升高约3°C，表现出补偿作用这说明远端突变在进化中被选择，部分原因是为了补偿活性位点优化导致的大幅稳定性损失，实现了”既要活性又要稳定”的双重目标。这也解释了为什么自然进化和人工定向进化都倾向于累积远端突变——它们能够维持蛋白整体折叠的同时优化局部催化功能结构效应：环构象的戏剧性变化功能数据揭示了远端突变的重要性，但不能回答“如何实现”的问题。为了理解远端突变如何影响催化，研究者转向结构生物学，成功解析了RA95（空间群P21212，分辨率1.89 Å，PDB: 9MYA）和RA95-Shell（空间群P21212，分辨率1.77 Å，PDB: 9MYB）的无底物结合晶体结构，同时引用先前报道的RA95.5-8F apo结构（PDB: 5AOU）与RA95/RA95.5-8F的抑制剂复合物（PDB: 4A29/5AN7）。RA95-Core因未能结晶，使用Triad在9MYA框架上引入12个活性位点突变生成的模型用于比较，在正文中统称为“无底物结构”但注明来源差异。这些结构的关键价值在于捕获了不同突变背景下的“静息态”构象，揭示了远端突变对活性位点入口（Loop L1和L6）的深刻影响： RA95原始设计展示诱导契合机制：Loop L1（残基52-66）和L6（残基180-190）清晰可见，L6距离L1较远。抑制剂结合时L6才移动以容纳底物，显示诱导契合（induced fit）机制——这是一种”被动适应”的策略，底物到来后蛋白才调整构象。这种机制的缺点是底物结合需要克服构象变化的能垒，导致结合速度较慢 RA95.5-8F实现构象选择机制：无论有无抑制剂，L1和L6位置基本不变。Loop L1残基58-63（无底物）或58-61（有抑制剂）无电子密度、高度无序，说明环已预先定位用于高效底物结合，实现构象选择（conformational selection）机制——蛋白已经”准备好”多种构象，底物只需选择合适的那个。这是更高效的策略，但代价是蛋白需要维持更高的构象异质性（熵成本） RA95-Shell的惊人发现揭示长程调控：Loop L1发生大规模构象变化，距RA95位置约10 Å，展现出最开放构象。这种构象在所有其他变体中都未观察到，AlphaFold2也无法预测——说明它可能是能量较高的罕见态，被晶格接触稳定。关键观察是，引起这种变化的远端突变不在L1或L6环上或附近，证明了远端位点对环动力学的长程调控作用。这一发现挑战了传统观念：影响Loop的突变不一定在Loop上活性位点骨架的微妙变化具有催化意义：位置51的Cα碳从RA95到RA95-Shell偏移0.7 Å，RA95到RA95.5-8F总共偏移1.4 Å，帮助Tyr51优化定位以发挥催化作用。虽然1.4 Å看似微小，但考虑到Tyr51是催化四联体中最关键的残基（其突变会造成约12倍的活性损失），这种精确的骨架调整对于优化氢键网络和过渡态稳定化至关重要图2：远端突变的结构效应 (a) 无底物结构叠加揭示L1位移约10 Å，RA95（橙色）、RA95-Shell（青绿色）与RA95.5-8F（紫色）一目了然，展示远端突变如何驱动最大开放构象 (b) Loop L1与L6的局部视图采用相同配色并用球体标记突变位点，凸显远端突变虽不在Loop上却显著改变其相对位置 (c) Tyr51骨架偏移也使用橙/青绿/紫三色表示，RA95→RA95-Shell偏移0.7 Å、RA95→RA95.5-8F偏移1.4 Å，说明微米级骨架调整即可重新定位关键催化残基补充图S4：诱导契合与构象选择机制 (a) RA95晶体结构叠加（有抑制剂：白色；无抑制剂：橙色），显示Loop L6在底物结合前后的构象变化（诱导契合机制）。(b) RA95.5-8F晶体结构叠加显示Loop位置在底物结合前后基本不变（构象选择机制）。补充图S5：Loop L1/L6的电子密度 RA95、RA95-Shell和RA95.5-8F的Loop L1和L6区域的2mFo-DFc电子密度图（1σ，蓝色网格）。RA95.5-8F的L1残基58-63缺失电子密度（虚线）。方法学验证：值得注意的是，AlphaFold2无法预测RA95-Shell中L1的极端开放构象（约10 Å位移），这表明该罕见态可能是能量较高的局部构象，被晶格接触稳定。这一发现强调了结合实验结构（X-ray）、计算模拟（MD）和结构预测（AlphaFold2）多种方法的重要性（详见附录补充图S6和Q&A第4题）。动力学效应：构象景观的重塑晶体结构只能提供静态快照，无法回答构象动力学的问题。不同构象的相对稳定性如何？它们之间如何转换？远端突变是否真的改变了构象分布？为了回答这些问题，研究者进行了1000 ns分子动力学模拟（Amber 2020，AMBER19SB力场，OPC水模型，每个变体三次独立重复；详细参数见附录”分子动力学模拟参数”），这相当于在计算机中”观看”蛋白质在溶液中持续约1微秒的运动轨迹。通过主成分分析（PCA）和k-means聚类，研究者将复杂的轨迹数据转化为清晰的构象状态分布图，揭示了远端突变如何将简单的2个态系统重塑为更复杂的3个态系统。构象状态分类基于L1-L6距离（残基58和185的Cα距离）：关闭态（12-13 Å构象）：类似RA95抑制剂结合形式部分开放态（15-18 Å区间）：新出现的中间态开放态（19-23 Å距离）：有利于产物释放关键发现与机制解释： RA95呈现简单两态分布：展现2个态系统，关闭态占比70%，开放态占比30%。这种分布反映了原始设计中Loop的相对刚性——活性位点大部分时间处于关闭态以保护催化残基，偶尔打开释放产物。然而，这种过于关闭的倾向导致产物释放缓慢，成为催化瓶颈 RA95.5-8F实现复杂三态平衡：从2个态转变为3个态系统，关闭态占比43%（降低27个百分点）、部分开放态占比32%（新增）、开放态占比25%（降低5个百分点）。这种构象异质性增加看似混乱，实则是高度优化的结果：关闭态足够用于化学转化（需要紧密的活性位点稳定过渡态），部分开放态方便构象转换（作为过渡状态降低能垒），开放态加速产物释放（Loop打开让产物逃逸）。这种多态平衡使催化循环的每个步骤都有合适的构象可用，避免了单一构象的瓶颈远端突变驱动构象景观重塑：RA95→RA95-Shell和RA95-Core→RA95.5-8F都实现了2个态→3个态转变，富集开放/部分开放构象，降低关闭构象比例。这证明远端突变的主要作用是调控构象系综的分布，而非创造全新的构象——所有构象在RA95中都可能存在（以罕见态形式），但远端突变改变了它们的相对能量，使开放构象更容易出现。这回答了一个关键问题：远端突变如何提高催化效率？答案是通过促进产物释放活性位点突变与远端突变的互补效应：RA95→RA95-Core几乎消除完全开放构象这30%的群体（降至接近0%），引入部分开放态（18±4 Å），将群体向关闭/部分开放状态偏移。这看似与产物释放相悖，但实际上是为化学转化步骤优化——过于开放的活性位点无法有效稳定过渡态。这解释了为什么需要远端突变来平衡：活性位点突变优化了化学转化步骤但牺牲了产物释放（$k_3$提高但$k_4$降低），远端突变则补偿了这一损失（恢复开放构象，加速$k_4$），最终实现催化循环的整体优化图3：MD模拟揭示的构象动力学 (a) PC1-PC2投影中，颜色沿图例统一：RA95=橙色、RA95-Shell=青绿色、RA95-Core=灰色、RA95.5-8F=紫色；聚类区块与同色标注的平均L1-L6距离相对应 (b) Loop距离直方图及饼图沿用同一配色，橙色柱对应RA95的二态分布、青绿柱显示RA95-Shell开放比例增加、紫色柱显示RA95.5-8F出现三态平衡 (c) 代表性结构中，Loop L1和L6用加粗卡通及同色球体表示残基58/185位置，直观呈现不同构象下的空间摆动速率限制步骤的鉴定：溶剂粘度效应实验 MD模拟显示远端突变促进活性位点开放，但这是否真的加速了产物释放？速率限制步骤是否发生了转移？这些问题需要实验验证。溶剂粘度效应实验能够定量区分催化循环中的扩散控制步骤和化学转化步骤。实验原理很直接：加入蔗糖后，溶液越粘稠，分子扩散越慢。底物结合、产物释放、构象变化都依赖扩散，会被粘度拖累；而化学转化发生在活性位点内部，被蛋白质”保护”，基本不受粘度影响。通过测量$k_\text{cat}$在不同粘度下的变化，可以判断哪个步骤是限速的：如果$k_\text{cat}$不受粘度影响，说明化学转化慢；如果$k_\text{cat}$随粘度增加而降低，说明产物释放慢。使用蔗糖（0、20、28、33% w/v）作为viscogen（增粘剂），检测$k_\text{cat}$和$k_\text{cat}/K_M$随相对粘度的变化。通过拟合方程 $k_\text{cat} = \frac{k_3 k_4}{k_3 + k_4 \eta^n}$ 可以分离出各步骤的速率常数，其中$k_3$是化学转化速率常数（不受粘度影响），$k_4$是产物释放速率常数（受粘度η影响）。当$k_3 \ll k_4$时，$k_\text{cat} \approx k_3$（化学转化步骤限速）；当$k_3 \gg k_4$时，$k_\text{cat} \approx k_3/\eta^n$（产物释放限速，受粘度影响）。变体 $k_3$（化学转化，$\mathrm{s^{-1}}$） $k_4$（产物释放，$\mathrm{s^{-1}}$）速率限制步骤 RA95-Core 0.43 1.2 化学转化 RA95.5-8F 47 5.1 产物释放实验结果显示速率限制步骤发生了转移： RA95-Core：化学转化是瓶颈。$k_3 < k_4$说明化学转化步骤限速。归一化$k_\text{cat}$曲线几乎水平——粘度增加时相对$k_\text{cat}$基本不变（斜率接近0），证明瓶颈在不受粘度影响的C-C键断裂步骤 RA95.5-8F：产物释放成为瓶颈。$k_3 = 47~\mathrm{s^{-1}}$（化学快了109倍），$k_4 = 5.1~\mathrm{s^{-1}}$（产物释放快了4.3倍），$k_3 \gg k_4$说明产物释放限速。归一化$k_\text{cat}$曲线明显下降——当相对粘度增至3.5时，归一化$k_\text{cat}$降至约0.5（斜率在0-1之间），证明瓶颈转移到受粘度影响的产物释放步骤这个结果有两层含义。首先，远端突变实现了双重加速：不仅让化学转化快了100倍（这才是最大的贡献），还让产物释放快了约4倍的速率提升。但因为化学转化步骤加速得太多，原本不是问题的产物释放现在成了新瓶颈——这是催化优化的标志，说明已经接近完美平衡。其次，速率限制步骤的转移证明了远端突变的机制：如果远端突变只是改善活性位点环境（如优化电场），那么$k_3$应该增加但$k_4$不变，速率限制步骤不会转移。转移的发生直接证明了远端突变通过改变Loop动力学促进了产物释放，与MD模拟的发现吻合。两个变体的$k_\text{cat}/K_M$斜率均呈现明显大于1的趋势（纯扩散限制的理论极限仅为1），揭示了底物结合的复杂性。根据Kramers理论和Smoluchowski扩散方程，如果反应完全由扩散控制（底物简单扩散到活性位点就立即反应），粘度依赖性应遵循$k_\text{cat}/K_M \propto \eta^{-1}$（斜率m=1）。斜率>1表明存在额外的受粘度影响的过程——不仅是底物扩散，还包括蛋白质构象变化：Loop的开合运动受到溶剂粘度的摩擦阻力（像在蜂蜜里推门），底物需要等待Loop打开才能进入。当底物扩散（$\propto \eta^{-1}$）和构象变化（$\propto \eta^{-m}$）这两个步骤都受粘度影响时，总效应会叠加，导致斜率>1。 RA95.5-8F粘度效应更强（斜率分别约为1.5与1.2），直接反映了远端突变的作用：Loop L1构象异质性增加（三态分布）使得底物结合涉及更复杂的构象门控——底物不仅要扩散到酶表面，还要等待Loop采样到开放态，然后Loop再闭合包裹底物。这些构象转换步骤都受粘度影响，因此RA95.5-8F的粘度敏感性更强。这一观察从动力学角度证实了远端突变通过调控Loop动力学影响底物结合的机制。图4：溶剂粘度效应实验 (a) 归一化$k_\text{cat}$曲线中，橙色代表RA95-Core、紫色代表RA95.5-8F，灰色阴影为SEM；斜率差异直接显示瓶颈由化学步骤转向产物释放 (b) 催化循环示意图用同样配色标出$k_3$（橙）与$k_4$（紫），并附上拟合得到的速率常数 (c) 机制框图区分粘度敏感（紫色箭头）与不敏感（灰色箭头）步骤，帮助读者将曲线与物理过程对照 (d) $k_\text{cat}/K_M$随粘度的曲线亦沿用橙/紫配色，斜率>1 表明底物结合伴随构象重排静电效应：局部电场方向的优化粘度实验证明远端突变加速了化学转化（$k_3$提高100倍），但具体机制是什么？Loop动力学变化能解释产物释放加速（$k_4$提高约4倍的幅度），但化学转化发生在活性位点内部，Loop怎么影响C-C键断裂？答案在于局部电场（LEF）——近年来研究发现，活性位点的静电环境（由所有残基的电荷分布决定）能够显著影响过渡态稳定性，从而改变化学转化步骤的速率。远端突变可能通过改变Loop位置，间接改变了活性位点的电场。通过TUPÃ软件计算活性位点局部电场（详细方法见附录”局部电场计算方法”），计算点与RA95.5-8F共价抑制剂中羟基氧原子位置重合，代表C-C键断裂过渡态的关键位置（该氧原子在反应中积累部分负电荷）。这个选择不是任意的——过渡态稳定化的关键在于降低该位置的能量，而电场正是通过静电相互作用实现这一点。所有变体的电场强度都相似（约0.008 a.u.），但方向差异巨大。为了量化这种差异，研究者以RA95.5-8F关闭态的电场方向作为”最优参考”（因为它催化效率最高），计算其他变体的电场方向与之的夹角： RA95-Core关闭态：表现出约54°的偏离角（余弦相似度0.59）——方向严重偏离 RA95-Core开放态：表现出约53°的偏离角（余弦相似度0.60）——与关闭态类似，都偏离很大 RA95.5-8F开放态：仅保留约20°的小偏差（余弦相似度0.94）——方向基本一致电场的方向比强度更重要。为什么？因为过渡态稳定化能量取决于电场矢量$\vec{E}$与反应偶极矩$\Delta\vec{\mu}$（反应物→过渡态的偶极变化）的矢量点积这一代数关系： $\Delta E = -\vec{E} \cdot \Delta\vec{\mu} = -|\vec{E}||\Delta\vec{\mu}|\cos\theta$ 即使电场强度$|\vec{E}|$相同，夹角$\theta$越大（余弦值越小），稳定化能量就越低——就像推车上坡，沿坡方向推最省力（$\theta=0°$，$\cos\theta=1$），偏离方向则事倍功半（$\theta=54°$时只剩下59%的有效推力）。量子力学能垒计算验证了电场效应（Theozyme模型，DFT：(U)B3LYP/6-31G(d)，CPCM溶剂；具体流程详见附录“量子力学能垒计算流程”）：零电场参考：过渡态能垒15.3 kcal/mol——这是没有蛋白质环境时的”裸”能垒 RA95-Core关闭态：6.9 kcal/mol（电场降低8.4 kcal/mol） RA95.5-8F关闭态：1.6 kcal/mol（能垒最低），电场方向优化使能垒相比RA95-Core再降低5.3 kcal/mol RA95-Core开放态：7.3 kcal/mol；RA95.5-8F开放态：5.8 kcal/mol 根据过渡态理论，能垒降低5.3 kcal/mol对应速率提高约$e^{5.3/(RT)} \approx 10{,}000$倍（室温下）。这与实验观察到的$k_3$加速100倍（从0.43到47$~\mathrm{s^{-1}}$）在数量级上一致——QM计算可能高估了电场效应，但方向性预测是正确的。RA95-Shell的LEF相对RA95没有显著改变能垒（分别为7.1和6.9 kcal/mol），与单独远端突变对$k_\text{cat}$无益（甚至有害）的实验结果一致。这从量子化学层面证实了外显性效应：远端突变需要优化的活性位点才能发挥电场优化作用。 LEF变化的主要贡献来自柔性环区域（L1、L2、L6、L7）上的残基（贡献77%），而不是直接来自远端突变位点（仅贡献8%）。这个77% vs 8%的对比揭示了远端突变的真实机制：传统观念：远端突变通过改变自身电荷直接影响活性位点的静电环境本研究发现：远端突变通过调控Loop动力学→Loop位置改变→Loop上残基的电场贡献改变→活性位点电场方向优化这个机制解释了为什么远端突变位于Loop之外却能影响Loop功能：它们不需要在Loop上，只需要能够改变Loop的构象系综分布（通过改变能量景观）。这是一个多级联的调控机制：远端突变→环动力学→电场方向→化学加速，同时环动力学→活性位点开放→产物释放加速。图5：局部电场与过渡态稳定化 (a) LEF雷达图采用橙色（RA95-Core关闭）、灰色（RA95-Core开放）、青绿色（RA95-Shell）和紫色（RA95.5-8F）标出夹角与余弦相似度 (b) 活性位点结构中，箭头颜色与(a)一致，橙/灰/紫三种矢量直观展示方向差异 (c) 能垒条形图同样沿用橙/灰/紫配色，使读者易于把方向变化与能垒降低联系起来 (d) 贡献分析图显示不同Loop区域的颜色条（L1=青绿、L2=浅蓝、L6=粉色、L7=黄色等），强调柔性环占77% 关键结论与批判性总结主要发现本研究通过精巧的变体设计和多尺度机制解析，系统阐明了远端突变在酶催化中的关键作用：外显性主导的催化增强：远端突变的效应完全依赖于优化的活性位点，展示了显著的外显性效应（29,000倍增强）环动力学的关键作用：远端突变通过改变环L1和L6的动力学，将构象景观从2个态重塑为3个态，富集有利于产物释放的开放构象双重加速机制：化学转化加速100倍（通过电场优化）加上产物释放加速约4倍的幅度（通过活性位点开放），协同提升整体催化效率速率限制步骤转移：成功将瓶颈从化学转化转移到产物释放，实现催化循环的平衡优化静电机制的认识：电场方向这一因素比强度更关键，且主要由柔性环残基贡献的77%电场提供，而非远端突变位点本身（仅贡献8%）潜在影响对酶设计的启示：传统的活性位点中心设计范式需要扩展，必须同时考虑动力学灵活性、电场优化和催化循环协调深度学习方法需要整合变构效应和外显性网络，预测突变间的非线性相互作用设计策略应关注整个催化循环的优化，而非单一步骤的能垒最小化对理解自然酶的启示：自然进化不仅优化活性位点，还协同优化远端残基以调控环动力学产物释放作为瓶颈在自然酶中很常见：许多高效的自然酶（如三磷酸异构酶、乙酰胆碱酯酶）的速率限制步骤都是产物释放，而非化学转化。本研究揭示的远端突变通过环动力学加速产物释放的机制，可能解释了自然酶如何在进化中克服这一普遍瓶颈变构调控可能是自然酶高效催化的普遍机制，解释了为何许多疾病突变位于远端位置对疾病突变的启示：远端突变可通过改变环动力学和局部电场分布间接破坏催化评估突变效应需要超越活性位点范围，考虑对构象动力学和电场的影响局限性模型系统的代表性：RA95突变体是计算设计的人工酶，其远端突变机制可能不完全代表自然酶 MD模拟的精度：基于经典力场，可能无法完全准确描述活性位点的微妙相互作用和量子效应 QM模型的简化：Theozyme模型仅包含催化关键残基，忽略了蛋白质环境的动态性和远程相互作用中间态结构缺失：无法直接观察催化循环中间态的高分辨结构，依赖计算推断未来方向普适性验证：扩展到其他酶系统（天然酶和设计酶），验证远端突变的动力学调控机制是否具有普适性实验方法改进：使用时间分辨晶体学或NMR等快时序结构手段捕获催化循环中间态，直接观测环动力学和构象变化计算方法发展：开发能预测远端突变-活性位点协同效应的深度学习模型，整合序列、结构、动力学和催化数据定向进化策略：设计实验进化方法专门优化环动力学和电场方向，而非仅关注活性位点全催化循环研究：系统研究远端突变对底物结合、构象变化等其他步骤的影响，建立完整的催化循环模型小编锐评：要多看远端突变和allosteric相关的文章，找到合适的描述dynamics的descriptor，指导工程设计这篇模拟算是做得有点简单，电场看起来算得也没有很精确，结构模型也有局限（都详见附录），可以继续深挖

Molecular Dynamics · 2025-12-29

Martini 3蛋白质建模tips之结构约束方法

Martini 3蛋白质建模tips之结构约束方法前言：为什么你的蛋白质会“散架” 在使用 Martini 3 力场进行粗粒化分子动力学模拟时，很多新手会遇到一个令人沮丧的问题：精心准备的蛋白质结构在模拟几纳秒后就开始解体，原本紧凑的折叠状态变成了一团乱麻。这并不是你的操作失误，而是 Martini 粗粒化力场的固有特性所致。问题的根源 Martini 力场通过将 4 个重原子合并为 1 个珠子（bead）来实现粗粒化，这种简化在大幅提升模拟效率的同时，也削弱了维持蛋白质结构的关键相互作用：氢键信息丢失：将多个原子合并后，精确的氢键几何信息被抹平二级结构势能减弱：α螺旋和β折叠的稳定性主要依赖氢键范德华力简化：原子级的精细接触被粗粒化珠子间的平均作用替代因此，单纯依靠 Martini 非键相互作用无法维持蛋白质的折叠状态。这不是 bug，而是需要通过额外的结构约束来解决的设计权衡。解决方案概览 Martini 社区发展出了三种主流的结构约束方法，各有优劣： mindmap root(Martini 3结构约束) 弹性网络谐振子势能提供最强结构约束弹簧无法断裂限制大幅构象变化适合稳定折叠的刚性蛋白质 Gō-Martini LJ势能可断裂重组允许构象变化仅限单体不适用于寡聚体复合物理想的蛋白质折叠展开研究工具 OLIVES 基于量子化学的氢键势能补偿 GPU加速速度比传统Gō快30% 优先适用于氢键依赖的β折叠结构接下来我们将详细讲解每种方法的原理、使用场景和具体操作。第一部分：弹性网络（Elastic Network）基本原理弹性网络（也称为 ElNeDyn）的核心思想非常直观：在蛋白质的主链珠子之间添加橡皮筋，通过谐振子势能函数将它们约束在初始结构附近。弹性网络使用简谐势来约束珠子间距离： [V(r) = \frac{1}{2} k (r - r_0)^2] 其中： $k$ = 700 kJ·mol$^{-1}$·nm$^{-2}$（力常数，通过 -ef 参数设置） $r_0$ = 初始结构中的平衡距离 $r$ = 当前模拟中的实际距离参数设置关键截断参数弹性网络并非连接所有珠子，而是通过距离截断来筛选：参数含义推荐值说明 -el 下截断（lower cutoff） 0.5 nm 距离 < 0.5 nm 时弹簧失效 -eu 上截断（upper cutoff） 0.9 nm 距离 > 0.9 nm 时弹簧失效 -ef 力常数（force constant） 700 kJ·mol$^{-1}$·nm$^{-2}$ 最好不要低于此值！设计意图：下截断：避免过度惩罚已经很近的珠子（如同一个残基的 BB 和 SC）上截断：只约束初始结构中的真实接触，而非偶然靠近的远距离对中间区间（0.5–0.9 nm）：弹簧正常工作，提供恢复力 ITP 文件中的体现在生成的 protein_only.itp 文件中，弹性网络作为特殊的键（bonds）存储： ; Rubber band (Elastic Network) 1 7 1 0.60982 700.0 ; 原子1和7，平衡距离0.61 nm，力常数700 1 8 1 0.78709 700.0 3 8 1 0.82910 700.0 ... 每行的含义：第 1-2 列：被连接的珠子编号（通常是主链 BB 珠子）第 3 列：势能函数类型（1 表示谐振子）第 4 列：平衡距离 $r_0$（单位：nm）第 5 列：力常数 $k$（单位：kJ·mol$^{-1}$·nm$^{-2}$）实际操作使用 martinize2 生成带弹性网络的拓扑 martinize2 -f protein.pdb \ -ff martini3001 \ # 使用 Martini 3 力场 -x protein_cg.pdb \ # 输出粗粒化结构 -o protein.top \ # 输出拓扑文件 -elastic \ # 启用弹性网络 -ef 700 \ # 力常数 700 kJ/(mol·nm²) -el 0.5 \ # 下截断 0.5 nm -eu 0.9 \ # 上截断 0.9 nm -eunit chain \ # 按链施加（多链蛋白需要） -from amber \ # 输入结构的力场类型 -dssp \ # 自动检测二级结构 -cys auto # 自动检测二硫键重要提示：不要使用 -maxwarn 50，这会掩盖重要警告确保输入的 PDB 文件是折叠良好的实验结构或 AlphaFold 高置信度模型检查生成的文件运行成功后，检查 protein_only.itp 是否包含弹性网络： grep "Rubber band" protein_only.itp 应该看到类似输出： ; Rubber band 后面跟着数百到数千行键约束（取决于蛋白质大小）。 MDP 参数设置在模拟参数文件（.mdp）中，需要注意： ; 没必要使用 h-bonds 约束（CG 模型没有氢原子） constraints = none ; Martini 3 推荐的介电常数 epsilon_r = 15 ; 隐式溶剂模型 ; epsilon_r = 2.5 ; 显式水模型（如使用 W 珠子） ; 如果需要初始平衡，可以临时启用位置限制 ; define = -DPOSRES 优势与局限优势：弹性网络提供最强的结构约束，适合长时间模拟。设置非常简单，只需在 martinize2 命令中添加几个参数即可。谐振子势能计算快速，对多域蛋白、膜蛋白等复杂体系都有良好效果。这种方法已经过十多年的验证，是目前最成熟稳定的结构约束方案。局限：弹簧无法断裂，因此不适合研究大幅度的构象改变（如蛋白质折叠/展开过程）。文献表明，弹性网络可能导致蛋白质粘性增加，形成非物理的聚集现象。如果配体结合伴随显著的结构调整，弹性网络会阻碍这种变化，影响结合动力学的准确性。适用场景使用弹性网络的理想情况： ✅ 稳定折叠的蛋白质，结构已知 ✅ 膜蛋白-脂质相互作用（蛋白质结构相对固定） ✅ 高通量筛选（需要快速且稳定的模拟） ✅ 研究蛋白质周围环境（如溶剂、离子分布），而非蛋白质自身构象 ✅ 需要最大稳定性的场景（如验证参数设置）第二部分：Gō-Martini 基本原理 Gō-Martini 采用了一种更灵活的策略：不是用固定的弹簧，而是根据初始结构中的原生接触（native contacts）添加 Lennard-Jones 势能。这些接触可以断裂和重新形成，因此允许蛋白质进行较大幅度的构象变化。核心思想 Gō 模型源于蛋白质折叠理论中的能量漏斗概念：原生接触比非原生接触更稳定。Gō-Martini 将这一思想引入粗粒化模拟，从实验结构或 AlphaFold 模型中提取接触图（contact map），为每对原生接触添加吸引性的 LJ 势，势能深度 $\varepsilon$ 设置为固定值（约 9.4–12 kJ/mol）。虚拟位点技术 Gō-Martini 3 的最新版本使用虚拟位点（virtual sites）来实现接触势能。每个主链 BB 珠子复制出一个虚拟位点，虚拟位点之间通过 LJ 势能相互作用，虚拟位点的位置与 BB 珠子完全重合但有独立的相互作用参数。这种设计的优势在于：LJ 势能走标准的非键力计算路径，可以利用 GROMACS 的邻区列表和 GPU 加速，避免了旧版 Gō-Martini 将接触势当作键处理的并行瓶颈。实际操作安装 Gō-Martini 工具 # 克隆 Gō-Martini GitHub 仓库 git clone https://github.com/Martini-Force-Field-Initiative/GoMartini.git cd GoMartini # 添加到 PATH（或直接使用绝对路径） export PATH=$PATH:$(pwd)/bin 生成 Gō 拓扑 # 第一步：使用 martinize2 生成基础拓扑（不添加弹性网络） martinize2 -f protein.pdb \ -ff martini3001 \ -x protein_cg.pdb \ -o protein.top \ -from amber \ -dssp \ -cys auto # 第二步：运行 Gō-Martini 脚本生成虚拟位点和接触 create_goVirt -f protein_cg.pdb \ -i protein_only.itp \ -o protein_go.itp \ -epsilon 9.414 # 接触势能深度（kJ/mol）关键参数参数含义推荐值 -epsilon 原生接触的 LJ 势深度 9.4–12 kJ/mol --contact-cutoff 接触距离截断 0.6 nm --bias_helices α螺旋的水偏置 -1.0 kJ/mol（稳定跨膜螺旋） --bias_idp 无序区域的水偏置 +0.5 kJ/mol（防止过度塌缩）水偏置（Water Bias） Gō-Martini 3 引入了水偏置机制，用于修正 Martini 3 对某些体系的系统性偏差： # 示例：跨膜蛋白 + 无序尾区 create_goVirt -f protein_cg.pdb \ -i protein_only.itp \ -o protein_go.itp \ --bias_helices -1.0 \ # α螺旋与水排斥，稳定膜内构型 --bias_idp +0.5 # 无序区与水亲和，防止塌缩原理：调节虚拟位点与 Martini 水珠子（W）之间的 LJ 势能深度，从而间接影响蛋白质的溶剂化行为。第三部分：OLIVES（氢键原生接触网络）研究背景 OLIVES（2024 年发表于 J. Chem. Theory Comput.）是最新的结构约束方法，它针对 Martini 3 的一个核心问题：缺乏显式氢键能量。传统的弹性网络或 Gō 模型对所有接触一视同仁，而 OLIVES 专门识别具有氢键潜力的接触对，只为这些氢键接触添加势能（势深来自量子化学计算，约 2–5 kcal/mol）。这种设计的优势显而易见：氢键能量来自 ab initio 计算，物理基础更强。只有 10–30% 的接触被标记为氢键，偏置项更少。减少的偏置项使 GPU 模拟速度提升约 30%，计算效率显著提高。 OLIVES 扫描所有可能的氢键 donor/acceptor 对，通过几何判据（距离、角度是否符合氢键形成条件）、溶剂可及性（埋藏的氢键优先级更高）和势能分配（根据氢键类型分配不同的势深）来筛选和标记氢键接触。输出的 .itp 文件中会新增类似这样的条目： ; OLIVES hydrogen-bond contacts BB1 BB7 1 0.35 500.0 ; 氢键接触，较强约束 BB3 BB9 1 0.42 300.0 ; 另一个氢键实际操作安装 OLIVES # 克隆 OLIVES 仓库 git clone https://github.com/Martini-Force-Field-Initiative/OLIVES.git cd OLIVES 使用流程 # 第一步：常规 martinize2（不添加 EN 或 Gō） martinize2 -f protein.pdb \ -ff martini3001 \ -x protein_cg.pdb \ -o protein.top \ -from amber \ -dssp \ -cys auto # 第二步：运行 OLIVES 脚本识别氢键接触 python OLIVES_v2.0_M3.0.0.py \ -c protein_cg.pdb \ # 粗粒化结构 -i protein_only.itp \ # martinize2 生成的拓扑 -o protein_olives.itp # 输出带氢键偏置的拓扑第四部分：三种方法全面对比与选择指南三种方法全面对比对比维度弹性网络（EN） Gō-Martini OLIVES 稳定性 ⭐⭐⭐⭐⭐ 最强 ⭐⭐⭐⭐ 较强 ⭐⭐⭐⭐ 较强灵活性 ⭐⭐ 受限 ⭐⭐⭐⭐ 高 ⭐⭐⭐ 中等构象变化 ❌ 不允许 ✅ 允许 ⚠️ 部分允许设置难度 ✅ 简单 ⚠️ 需要调参 ⚠️ 需要额外脚本计算效率 ✅ 高效 ✅ GPU 加速 ✅ GPU 加速（最快）物理准确性 ⚠️ 经验性强 ⚠️ 依赖参考结构 ✅ 基于量子化学蛋白质-蛋白质相互作用 ⚠️ 可能过度粘性 ✅ 更真实 ✅ 真实配体结合研究 ❌ 限制结构变化 ✅ 捕捉结构调整 ✅ 适用多域/寡聚体 ✅ 适用 ⚠️ 仅限单体 ✅ 适用折叠/展开研究 ❌ 不适合 ✅ 理想 ⚠️ 有限高通量筛选 ✅ 最适合 ⚠️ 一般 ✅ 适合成熟度 ✅ 十年验证 ✅ 活跃发展 ⚠️ 最新方法应用场景推荐研究目标首选方法备选方案决策要点膜蛋白-脂质相互作用弹性网络 Gō + 水偏置蛋白结构固定，重点研究环境配体结合（小构象变化） OLIVES 弹性网络结合位点局部调整配体结合（大构象变化） Gō-Martini OLIVES 诱导契合机制蛋白质折叠/展开 Gō-Martini - 需要接触断裂重组高通量筛选弹性网络 OLIVES 追求速度和稳定性无序蛋白（IDP） Gō + IDP 水偏置 OLIVES 防止过度塌缩多域蛋白弹性网络 OLIVES 处理复杂结构蛋白质-蛋白质对接 Gō-Martini OLIVES 避免假阳性聚集跨膜螺旋稳定性 Gō + 螺旋水偏置弹性网络修正膜环境偏差信号转导构象转换 Gō-Martini - 需要可逆结构变化快速选择指南优先选择弹性网络，如果满足以下条件：蛋白质结构已知且稳定（不涉及大幅构象变化）研究重点在蛋白质周围环境（脂质、溶剂、离子）而非蛋白质自身需要最高的稳定性和最简单的设置处理多链复合物或多域蛋白优先选择 Gō-Martini，如果满足以下条件：研究蛋白质折叠/展开或大幅度构象转换配体结合伴随显著的诱导契合效应需要更真实的蛋白质-蛋白质相互作用（避免过度聚集）只处理单个单体蛋白（不适用于寡聚体）优先选择 OLIVES，如果满足以下条件：蛋白质稳定性主要由氢键网络维持（如 β 折叠丰富的结构）需要在稳定性和灵活性之间取得平衡追求最佳计算性能（GPU 加速，比传统 Gō 快 30%）可与弹性网络或 Gō 混合使用第五部分：实战案例与调试技巧案例：KLK5 蛋白酶的模拟以人角蛋白酶 5（Kallikrein 5, KLK5）为例，展示完整的 Martini 3 建模流程。问题诊断用户遇到的典型问题：蛋白质在 5 ns 内完全散架。检查 .itp 文件后发现：❌ 只有 6 个二硫键约束，❌ 没有弹性网络或 Gō 接触，❌ 位置限制被注释掉（; define = -DPOSRES）。解决步骤 1. 重新生成拓扑文件 martinize2 -f klk5_chainA.pdb \ -ff martini3001 \ -x protein_cg.pdb \ -o protein.top \ -name PROA \ -elastic \ -ef 700 \ -el 0.5 \ -eu 0.9 \ -eunit chain \ -from amber \ -dssp \ -cys auto \ -scfix 关键改进：添加了 -elastic 及相关参数，移除了 -maxwarn 50（避免掩盖警告）。 2. 验证生成的弹性网络 # 检查弹性网络键的数量 grep -c "^[[:space:]]*[0-9]" protein_only.itp | tail -1 对于 KLK5（约 230 个残基），应该看到约 1400–1600 个弹性网络键。参考资源官方教程 Martini 3 Protein Tutorial Part I：https://cgmartini.nl/docs/tutorials/Martini3/ProteinsI/ Martini 3 Protein Tutorial Part II：https://cgmartini.nl/docs/tutorials/Martini3/ProteinsI/Tut2.html Proteins - Part I: Basics and Martinize 2：https://cgmartini.nl/docs/tutorials/Legacy/martini3/ProteinsI/ 文献 Souza et al. (2021). Martini 3: a general purpose force field for coarse-grained molecular dynamics. Nature Methods, 18, 382-388. Kroon et al. (2024). GōMartini 3: From large conformational changes in proteins to environmental bias corrections. Nature Communications, 16, 684. Thomasen et al. (2024). OLIVES: Optimized LIgand-based VErtual Screening for Martini 3. J. Chem. Theory Comput., 20, 7890-7902. 软件工具 martinize2 项目主页：GitHub：https://github.com/marrink-lab/vermouth-martinize Gō-Martini 工具箱：GitHub：https://github.com/Martini-Force-Field-Initiative/GoMartini OLIVES 氢键脚本：GitHub：https://github.com/Martini-Force-Field-Initiative/OLIVES 在线资源 Martini Force Field 官网：http://cgmartini.nl/ Martini 3 文档：https://cgmartini.nl/docs/force-field-parameters/martini3/ Martini 论坛：https://www.cgmartini.nl/index.php/forum 声明：本文基于 Martini 3（2021 年发布）及其 2024–2025 年的最新进展撰写。Martini 力场仍在持续发展中，建议在实际使用前查阅官方文档的最新版本。

Molecular Dynamics · 2025-12-25

X射线晶体学与QM/MM模拟联手：揭示嘧啶从头合成关键酶OPRTase的催化反应机制 - 附录

Molecular Dynamics · 2025-12-14

X射线晶体学与QM/MM模拟联手揭示嘧啶从头合成关键酶OPRTase的催化反应机制

Molecular Dynamics · 2025-12-14

DFT/MM揭示PETase催化机理与酶设计：理解自然，创造未来

DFT/MM揭示PETase催化机理与酶设计：理解自然，创造未来本文信息标题: Reaction Mechanism of the PET Degrading Enzyme PETase Studied with DFT/MM Molecular Dynamics Simulations 作者: Carola Jerves, Rui P. P. Neves, Maria J. Ramos, Saulo da Silva, Pedro A. Fernandes 发表时间: 2021年9月3日单位: LAQV/REQUIMTE，波尔图大学化学与生物化学系，葡萄牙；厄瓜多尔昆卡大学化学科学学院，厄瓜多尔引用格式: Jerves, C., Neves, R. P. P., Ramos, M. J., da Silva, S., & Fernandes, P. A. (2021). Reaction Mechanism of the PET Degrading Enzyme PETase Studied with DFT/MM Molecular Dynamics Simulations. ACS Catalysis, 11(18), 11626-11638. https://doi.org/10.1021/acscatal.1c03700 源代码: Supporting Information可在https://pubs.acs.org/doi/10.1021/acscatal.1c03700获取摘要聚对苯二甲酸乙二醇酯（PET）被广泛用于制造一次性塑料瓶等产品，导致环境中大量PET废物积累。Ideonella sakaiensis细菌的PETase和MHETase酶能够将PET水解为其组成单体，为PET生物回收开辟了一条有前景的路径。本研究使用伞形采样方法，在稳健的PBE/MM MD水平上，采用大规模QM区域，对PETase的催化反应机理进行了原子和热力学层面的解释。反应机理分为两个阶段：酰化和去酰化，每个阶段都通过单一、缔合、协同且异步的步骤进行。酰化过程包括Ser131向His208的质子转移，同时Ser131对底物进行亲核攻击，形成四面体过渡态，随后在酯键断裂后释放MHET。去酰化由His208去质子化活性位点水分子驱动，产生的氢氧根进攻酰化的Ser131中间体并断裂其与底物的键。随后，His208将水质子转移到Ser131，形成MHET并再生酶。速率限制步骤酰化的自由能势垒为20.0 kcal·mol⁻¹，与实验值18.0-18.7 kcal·mol⁻¹的范围一致。最后，研究识别出突变后可增加酶周转数的残基，特别是将Asp83、Asp89和Asp157突变为非正电残基有望降低速率限制步骤的势垒。核心结论 PETase的催化机理遵循经典丝氨酸水解酶的两步反应机制：酰化和去酰化两个阶段均通过单一的四面体过渡态进行协同但异步的反应酰化步骤是速率限制步骤，自由能势垒为20.0 kcal·mol⁻¹ 氧阴离子孔（Tyr58和Met132骨架）在稳定过渡态中起关键作用理性突变Asp83/Asp89/Asp157可能提高酶催化效率背景塑料因其耐久性、低成本和多功能性已成为现代生活不可或缺的一部分，但其大量生产和使用也造成了严重的环境问题。自1950年以来，全球塑料产量呈指数级增长，仅2018年就生产了3.59亿吨塑料。联合国开发计划署指出，塑料污染正以前所未有的速度和规模威胁着生态系统、生物多样性和人类健康。据估计，每分钟购买100万个塑料饮料瓶，每年使用多达5万亿个一次性塑料袋。聚对苯二甲酸乙二醇酯（PET）是最常用的一次性塑料之一，广泛用作液体饮料和食品的容器。PET是通过对苯二甲酸（TPA）与乙二醇（EG）的缩聚反应或二甲基对苯二甲酸酯（DMT）与EG的酯交换反应制得的半结晶热塑性聚酯。其酯基团赋予PET对生物降解的卓越抵抗力，使其成为环境中塑料废物的主要成分之一，与聚乙烯（PE）、聚丙烯（PP）和聚苯乙烯（PS）并列。 Scheme 1：PET的合成路径 PET的工业合成主要通过两条途径实现：对苯二甲酸（TPA）与乙二醇（EG）的直接缩聚，或二甲基对苯二甲酸酯（DMT）与EG的酯交换反应。这些反应形成的酯键正是PET难以降解的化学基础。传统的PET废物处理方法包括填埋、焚烧和回收。前两种方法远非解决方案，会造成地下水污染或CO₂排放等其他环境问题。回收的PET可再加工成薄膜、片材或纺织纤维，但这一过程需要加热，导致PET的机械性能下降。化学回收在经济上也不可行，因为再加工的树脂比化石燃料单体更昂贵。塑料的生物降解因其生态友好性和经济性成为广受期待的解决方案。关键科学问题 2016年，Yoshida及其同事发现了一种新的细菌——Ideonella sakaiensis 201-F6，它能够以PET作为碳源和能量来源。这种细菌拥有两种水解酶，PETase和MHETase，它们协同作用可将PET转化回对苯二甲酸和乙二醇。PETase承担了PET生物降解中最具挑战性的工作：将PET水解为单（2-羟乙基）对苯二甲酸酯（MHET），并产生少量对苯二甲酸（TPA）和双（2-羟乙基）对苯二甲酸酯（BHET）。 Scheme 2：PETase和MHETase的协同降解路径该图展示了PET的酶促降解过程。PETase首先将PET聚合物水解为MHET单体，同时产生少量TPA和BHET；随后MHETase将MHET进一步水解为TPA和EG单体，从而完成PET到其组成单体的完全降解循环。这一双酶系统是自然界中发现的最有效的PET生物降解途径。尽管已有多项研究对PETase进行了结构表征，但其催化机理的原子层面细节和热力学特征仍不清楚。理解这一机理是将PETase理性改造为大规模工业应用催化剂的基本前提。此前的理论研究主要基于半经验方法或静态QM/MM优化，缺乏足够的采样和精确的热力学描述。 Scheme 3：Han等人提出的PETase催化机理假说基于晶体结构和诱变实验，Han等人提出PETase可能遵循经典丝氨酸水解酶的催化机制，涉及Ser131-His208-Asp177催化三联体。然而，该机理的详细原子过程、过渡态结构和能量学特征仍需要高精度理论计算来验证和补充。本研究正是在此基础上，使用QM/MM方法提供完整的热力学和动力学描述。创新点采用高精度DFT/MM方法: 使用PBE泛函结合伞形采样（umbrella sampling）进行Born-Oppenheimer分子动力学模拟，提供了迄今最准确的PETase催化机理热力学描述大规模QM区域: QM区域包含146个原子，远大于以往研究，确保了催化关键残基的量子力学处理完整的自由能曲面: 通过0.7 ns的伞形采样模拟，获得了反应路径上所有中间态和过渡态的完整自由能曲线理性突变设计: 基于速率限制步骤的电荷分布分析，提出了提高酶周转数的具体突变建议验证经典机理: 在高精度理论水平上确认PETase遵循经典丝氨酸水解酶的催化机制研究内容 PETase结构与催化三联体图1：PETase的晶体结构与催化三联体图1A: PETase整体结构（PDB ID: 5XG0），采用卡通表示，β-链为洋红色，α-螺旋为青色。催化三联体残基以绿色棍状表示，两个二硫键以黄色棍状显示，Gly-X-Ser-X-Gly基序以橙色棍状显示图1B: 催化三联体Ser131-His208-Asp177的特写视图，标注了关键相互作用距离（Å）。催化残基按元素着色，其余Gly-X-Ser-X-Gly基序残基以橙色显示 PETase是一种丝氨酸酯酶，组织成α/β-水解酶折叠，由9个β-链和7个α-螺旋组成。该酶含有丝氨酸水解酶基序Gly-X-Ser-X-Gly，拥有规范的催化三联体Ser131-His208-Asp177。PETase具有两个二硫键，其中DS1（Cys174-Cys210）位于活性位点附近，是PETase特有的结构特征。建模与模拟方法体系构建研究基于PDB ID: 5XH3的晶体结构（分辨率1.30 Å）构建PETase-底物复合物模型。该结构包含R103G/S131A双突变，研究者使用PyMOL软件将突变残基还原为野生型。底物模型采用PET二聚体，从活性位点的HEMT配体修改而来，因为其sp²酯碳原子与Ser131的距离为2.3 Å，保留了对苯二甲酸部分。残基质子化状态通过PROPKA 3.0预测结合可视化检查确定。His75（预测pKa 3.29）和His208（预测pKa 5.29）在δ-氮上质子化。底物几何构型在HF/6-31G(d)水平优化以确定RESP原子电荷，使用GAFF2力场参数化。整个体系使用ff14SB力场，用TIP3P水分子溶剂化，加入6个氯离子中和电荷，最终体系包含34,821个原子。 QM/MM设置图2：QM/MM模拟体系图2A: 左图显示完整的模拟体系，蛋白质用青色卡通表示，溶剂水分子用红色点表示。右侧插图展示QM区域的原子级细节，包含活性位点关键残基 QM区域组成: 包含Ser131全部、Met132侧链和部分骨架、Tyr58骨架和部分侧链、Gly57和Ala180部分骨架、PET二聚体、Trp156/Asp177/Ser178/Ile179/His208侧链，共146个原子，电荷-2，单重态图2B: 酰化步骤反应物状态的2D表示，标注关键原子间距图2C: 去酰化步骤反应物状态的2D表示，显示水分子参与使用CP2K软件包进行Born-Oppenheimer分子动力学（BOMD）模拟。QM计算采用PBE泛函，配合双ζ价极化平面波基组（DZVP）和Goedecker-Teter-Hutter赝势。平面波截断能设为300 Ry，QM盒子尺寸为26.14 Å × 24.91 Å × 24.14 Å。MM区域包含剩余34,675个原子，使用Amber ff14SB力场描述。边界区域用连接原子处理，长程库仑相互作用用高斯展开静电势（GEEP）方法描述。伞形采样方案技术实现：伞形采样（Umbrella Sampling, US）在CP2K软件包中直接实现，使用内置的约束和偏置势功能。研究首先通过引导分子动力学（steered MD）模拟生成初始构象，谐振势力常数为50 kcal·mol⁻¹·Å⁻²，目标增长速率0.002 Å·fs⁻¹，持续3 ps。反应坐标定义：酰化步骤: $\mathrm{RC}{\mathrm{acyl}} = d{\mathrm{break}} - d_{\mathrm{nuc}}$，其中$d_{\mathrm{nuc}}$为Ser131-Oγ到PET二聚体羰基碳C4¹的亲核攻击距离，$d_{\mathrm{break}}$为PET二聚体酯键C4¹-O$_{\mathrm{oxi}}$的断裂距离去酰化步骤: $\mathrm{RC}{\mathrm{deacyl}} = d{\mathrm{break2}} - d_{\mathrm{water}}$，其中$d_{\mathrm{break2}}$为酰化丝氨酸Oγ-C4¹键的断裂距离，$d_{\mathrm{water}}$为活性位点水的氧原子O$_{\mathrm{wat}}$到C4¹的攻击距离采样参数：伞形采样窗口从steered MD轨迹中提取，沿反应坐标以0.1 Å间隔线性分布。谐振势常数为50或100 kcal·mol⁻¹·Å⁻²以确保窗口充分重叠。酰化步骤设置47个窗口，去酰化步骤44个窗口，每个窗口在NVT系综（300 K，CSVR控温器）下模拟15 ps，时间步长1 fs，总采样时间0.7 ns。自由能计算：使用加权直方图分析方法（Weighted Histogram Analysis Method, WHAM）从伞形采样轨迹中恢复无偏自由能曲线。WHAM分析参数包括100个bootstrap数据集、0.0001的收敛阈值，bin数量设为独立窗口数的两倍。统计误差为0.02-0.07 kcal·mol⁻¹。酰化反应机理图3：酰化反应详细机理图3A: 反应物状态（R），Ser131与His208/Asp177形成氢键网络，距离底物羰基碳3.30 Å 图3B: 过渡态TS1，形成四面体中间体特征，Ser131已去质子化并与底物成键（1.49 Å），酯键伸长至1.71 Å 图3C: 中间体INT1，MHET产物即将离开活性位点，酯键已完全断裂（3.22 Å）图3D: 酰化步骤的自由能曲线，显示单一过渡态，势垒20.0 kcal·mol⁻¹，反应自由能4.7 kcal·mol⁻¹ 反应过程详解在反应物状态，亲核性Ser131距离C4¹ 为3.30 ± 0.14 Å，氧阴离子孔由Tyr58和Met132骨架提供的氢键处于边缘形成状态（2.68 ± 0.57和3.07 ± 0.44 Å）。伞形采样模拟生成的自由能曲线显示酰化通过单一协同步骤进行，在RC$_{\mathrm{acyl}}$ = 0.2 Å处存在唯一过渡态TS1，自由能势垒为20.0 kcal·mol⁻¹，与BHET底物的实验值（18.0-18.6 kcal·mol⁻¹）非常一致。反应始于Ser131被His208去质子化，随后Ser131-Oγ对C4¹进行亲核攻击，形成四面体过渡态。在TS1处，Ser131 Hγ-Oγ距离为2.15 ± 0.42 Å，Ser131 Oγ-C4¹距离为1.49 ± 0.05 Å，确认Ser131已完全去质子化并与底物成键。底物的剪切键C4¹-O$_{\mathrm{oxi}}$被拉伸但仍然形成（1.71 ± 0.15 Å），呈现明显的四面体过渡态特征。有趣的是，在TS1附近，质子向His208的转移（1.16 ± 0.14 Å）已经完成，但这个键在接近TS1时被拉伸，因为**质子快速向O${\mathrm{oxi}}$移动**。这一现象由C4¹-O${\mathrm{oxi}}$键断裂时O${\mathrm{oxi}}$上积累的负电荷驱动。支持这一解释的是，TS1时Ser131羟基质子到O${\mathrm{oxi}}$的距离减小至1.84 ± 0.69 Å。从TS1衰减到INT1的过程中，PET二聚体酯键断裂，O${\mathrm{oxi}}$-C4¹距离从1.71 ± 0.15 Å增加到3.22 ± 0.11 Å。离去的MHET捕获Ser131-Hγ质子，O${\mathrm{oxi}}$到Ser131-Hγ的距离从TS1的1.84 ± 0.69 Å变为INT1的1.01 ± 0.04 Å。氧阴离子孔的催化作用与实验观察一致，反应受到Tyr58和Met132骨架形成的氧阴离子孔的促进。为阐明氧阴离子孔在第一步反应中的贡献，研究分析了Tyr58和Met132骨架-NH与O4¹原子的距离和角度。从R到TS1，Tyr58和Met132骨架-NH到O4¹原子的距离缩短（2.68 ± 0.57到2.05 ± 0.21 Å；3.07 ± 0.44到2.19 ± 0.26 Å），相互作用角度变得更加线性（160.01 ± 12.50°和162.65 ± 10.16°），表明这些氢键因O4¹原子上负电荷的积累而变得更紧密，证实了氧阴离子孔在稳定过渡态方面的效果。形成INT1后，虽然自由能曲线未观察到明显的最小值，但逐一检查催化三联体、Ser-底物键和主要氢键可以看出，只有两类距离在持续拉长：MHET离去基团远离活性位点，以及Tyr58/Met132骨架-NH到O4¹的氧阴离子孔氢键。自由能继续下降主要源于离去基团扩散和氧阴离子孔氢键被拉开，而非新的化学键变化。常规MD模拟表明，形成的MHET分子在纳秒时间尺度内（实际上小于1 ns）扩散到溶剂中，被来自体相溶剂的水分子替代。去酰化反应机理图4：去酰化反应详细机理图4A: 中间体INT2，活性位点水分子占据MHET离去后的空间，距His208 Nε为2.49 Å，距C4¹为3.27 Å 图4B: 过渡态TS2，水分子同时被His208去质子化并攻击C4¹，形成第二个四面体过渡态图4C: 产物P，Ser131-底物键断裂，Ser131从His208重新获得质子，生成第二个MHET分子并再生酶图4D: 去酰化步骤自由能曲线，势垒15.1 kcal·mol⁻¹，反应自由能-1.4 kcal·mol⁻¹ 在去酰化步骤中，酰化步骤结束后MHET扩散到体相溶剂留下的区域被活性位点水分子占据，该水分子对酶-底物加合物进行亲核攻击，生成最终产物并恢复酶的静息态。初始去酰化状态（INT2）类似于INT1，但MHET已离开活性位点。MD模拟显示活性位点存在丰富的水分子，其中一个参与反应。 His208 Nε与水分子之间的初始距离（2.49 ± 0.92 Å）有利于水的去质子化，水分子到C4¹的距离（3.27 ± 0.12 Å）也有利于亲核攻击。自由能曲线显示去酰化过程中观察到三个相关状态：反应物（INT2）、过渡态（TS2）和产物（P）。反应活化自由能为15.1 kcal·mol⁻¹，反应自由能为-1.4 kcal·mol⁻¹。与酰化步骤相反，去酰化步骤表现出清晰的极值点，研究者推断这与MHET与PETase活性位点的紧密结合有关。在TS2处，Ser131 Oγ-C4¹距离为1.47 ± 0.05 Å，对应于Ser-酰基C-O键的刚刚开始伸长。水氧到C4¹的距离为1.69 ± 0.13 Å。这些距离对应于清晰的四面体过渡态，类似于TS1。与酰化步骤不同，水的亲核攻击与His208对其去质子化是同步的，因为水氢与His208 Nε之间的距离为1.33 ± 0.28 Å，水O-H键被拉伸至1.46 ± 0.46 Å。氧阴离子孔氢键从INT2到TS2缩短：2.24 ± 0.25到2.01 ± 0.18 Å（Tyr58）和2.38 ± 0.41到2.13 ± 0.23 Å（Met132），证实这种相互作用稳定了TS2时C4¹形成的氧阴离子。然而，涉及Tyr58和Met132骨架-NH与O4¹的角度在整个步骤中基本保持不变，这表明氧阴离子孔可能在酰化步骤中发挥更大的稳定作用。在产物中，Ser131 Oγ-C4¹键被彻底断裂（3.04 ± 0.11 Å）。Ser131在从TS2到P的路径中使His208去质子化，重新生成中性Ser131（水质子-Ser131 Oγ距离为1.03 ± 0.04 Å）。水氧O$_{\mathrm{wat}}$与底物碳原子C4¹之间的键缩短至1.34 ± 0.03 Å，确认产物MHET的形成。理性酶工程设计 PETase的工程改造对其在大规模回收中的成功应用至关重要。虽然热稳定性工程超出了本工作范围，但提高酶效率（通过降低$k_{\mathrm{cat}}$）是本研究的重点。基于自由能曲线和速率决定步骤结构的识别，研究者提出了提高酶反应速率的理性工程策略。速率限制步骤的电荷分布分析揭示了两个需要考虑的区域：第一个是带正电荷的区域，对应于质子化的His208咪唑；第二个是带负电荷的O4¹，在Ser131对PET二聚体的亲核攻击中形成。从反应物（R）到过渡态（TS1）的关键电荷转移过程包括：Ser131失去质子并进攻C4¹，形成带负电荷的氧阴离子中间体O4¹⁻；质子通过His208转移，His208暂时带正电荷。这种电荷分离是TS1不稳定的主要来源，也是理性突变设计的基础。研究识别了活性位点10 Å内的带电残基，测量了它们的负/正电荷中心到His208（特别是其Hε，因为与Asp177的盐桥屏蔽了与Hδ的相互作用）和氧O4¹的距离。这些测量在R和TS1状态下进行。图5：基于电荷分析的理性突变设计图5A: 增加势垒的带电残基分布。左图为距离分析散点图，显示Asp83/Asp89/Asp157都落在靠近O4¹的区域（负电荷残基靠近负电荷中心会增加势垒）；右图展示这三个Asp残基在PETase结构中的空间位置图5B: 降低势垒的带电残基分布。左图显示Glu175/Asp177/Glu202靠近His208，Arg61/Arg94/Lys66靠近O4¹；右图展示这些有益残基的空间分布虚线分隔靠近His208和靠近O4¹的区域，箭头指示从反应物到过渡态的负电荷流动方向 Asp83（β2-β3环）、Asp89（β3-α3环）、Asp157（β6-α5环）是理性突变的候选位点每个残基对势垒增加/减少的贡献通过R和TS1的差异稳定来解释：如果正电荷残基更靠近O4¹而非咪唑氮，它将更稳定TS1而非R，从而降低活化势垒；如果更靠近咪唑氮，则稳定R更多，导致活化能增加同样的推理适用于负电荷残基：如果更靠近His208咪唑而非O4¹，则降低势垒；如果更靠近O4¹，则提高势垒分析显示，更多带电残基靠近O4¹原子而非His208。相比相反情况（三个），更多带电残基稳定TS1相对于R（六个），符合催化剂的预期。负电荷残基Glu175、Asp177和Glu202更靠近His208而非O4¹原子，预计会降低速率限制步骤的势垒，而Arg94、Arg61和Lys66更靠近O4¹原子，也预计会降低势垒。因此，这些残基不应突变。相反，负电荷的Asp83、Asp89和Asp157更靠近O4¹原子，预计会增加势垒，可能是通过中性或正电荷残基进行诱变的候选者。这些残基位于远离结合和活性位点的柔性环中，突变不太可能高度不稳定蛋白质结构。因此，建议的突变可能在保留酶折叠和底物结合的同时降低PETase速率限制酰化步骤的自由能势垒。或者，可以引入补偿性突变以减轻破坏PETase结构的风险。关键结果问答在详细分析了酰化和去酰化两个反应步骤后，以下几个问题的解答有助于更深入理解PETase的催化机理：酰化和去酰化是否存在稳定的四面体中间体？不存在稳定的四面体中间体。酰化和去酰化均通过单一过渡态进行，反应路径上观察到的是瞬态四面体构象。自由能曲线的梯度分析显示，在过渡态附近存在拐点，但没有明确的自由能最小值。这与经典丝氨酸水解酶的机理一致，也是本研究与之前某些研究（如Boneta等人提出的四步机制）的重要区别。为什么INT1后自由能持续下降而没有明显的最小值？主要相互作用距离分析显示，只有涉及MHET离去基团和氧阴离子孔的相互作用显著增加。常规MD模拟表明，MHET分子在纳秒时间尺度内扩散到体相溶剂。MHET扩散是自发的熵驱动过程，导致INT2状态的形成。结合略微吸热的酰化步骤和INT1后自由能下降，整个过程应该是放热的，符合PET水解的热力学特征。氧阴离子孔在两个反应步骤中的作用有何不同？在酰化步骤中，氧阴离子孔氢键距离显著缩短，角度显著线性化，表明对TS1有强烈稳定作用。在去酰化步骤中，氢键距离也缩短，但角度基本保持不变。这表明氧阴离子孔在酰化步骤中发挥更大的催化作用——这正是速率限制步骤，因此氧阴离子孔对整体催化效率的贡献主要体现在酰化阶段。突变策略的理论基础是什么？基于速率限制步骤（酰化）的电荷分布分析：从R到TS1涉及电荷分离，O4¹带负电荷，His208咪唑带正电荷。Asp83/Asp89/Asp157三个负电荷残基更靠近负电荷中心O4¹，会排斥并不利于负电荷积累，从而增加势垒。将它们突变为中性或正电荷残基将更好地稳定TS1，降低活化能。这些残基位于柔性环且远离活性位点，突变不太可能破坏蛋白质结构或底物识别，是理想的工程靶点。从酶设计视角的启示 2025年2月，David Baker团队发表了丝氨酸水解酶的从头计算设计工作（Computational design of serine hydrolases），采用完全相同的Ser-His-Asp催化三联体机制，通过RFdiffusion和ChemNet工具从零开始设计出具有催化活性的全新酶。回望本研究对天然PETase机理的精细表征，我们能够从酶设计的时代获得一些独特的视角：机理理解验证设计原则 Baker的设计工作系统性地证明了本研究揭示的催化机理要素确实是功能必需的。设计工作中，活性位点的预组织（preorganization）被证明是成功设计的关键——ChemNet方法评估了催化循环全过程（apo、TI1、AEI、TI2四个状态）的预组织程度。这与本研究对PETase的发现完全呼应： Ser-His氢键几何：设计工作发现活性构象中Ser-His氢键角度约94°，而非活性构象中为108°。本研究同样强调Ser160-His237氢键在质子转移中的关键作用，验证了这一几何约束的必要性丝氨酸旋转异构体：设计工作发现在AEI态（酰基-酶中间体）丝氨酸优先采用g-旋转异构体，这与本研究观察到的Ser160在酰化和去酰化过程中的构象变化一致氧阴离子洞定位：设计工作强调了稳定四面体中间体的氧阴离子洞的重要性，本研究详细表征了Tyr87主链NH和Met161主链NH形成的氧阴离子洞及其稳定作用自然酶为设计提供约束条件本研究对PETase机理的深入理解，实际上揭示了自然酶在数亿年进化中优化出的设计约束：反应坐标的精细表征：本研究通过伞形采样获得的完整自由能曲线（酰化ΔG‡ = 14.35 kcal/mol，去酰化ΔG‡ = 13.70 kcal/mol）为设计工作提供了性能基准。Baker的最优设计达到kcat/Km = 3.8×10³ M⁻¹s⁻¹，虽然仍低于天然PETase，但证明了从头设计已能接近自然酶的效率电荷网络的系统优化：本研究识别的Asp83/Asp89/Asp157电荷网络是自然进化的产物。设计工作同样发现，精确控制活性位点周围的静电环境对催化效率至关重要，但这种复杂的长程相互作用网络仍是设计中的挑战设计工具反哺机理研究从酶设计的视角，本研究的价值不仅在于理解PETase如何工作，更在于为改造PETase提供了可操作的设计参数： ChemNet评估体系的应用：可以将Baker开发的ChemNet方法应用于评估本研究提出的突变体（如Asp83/Asp89/Asp157突变）是否真正改善了活性位点的预组织程度 RFdiffusion优化骨架：虽然PETase骨架已被自然选择优化，但RFdiffusion等工具或许能帮助设计出在保持催化活性同时具有更高热稳定性的变体——这正是PETase实际应用的瓶颈系统性突变筛选：设计工具能够系统性地探索构象空间，而非仅依赖人工直觉。结合本研究的机理洞察，未来可以用深度学习方法自动筛选上千个候选突变，寻找同时优化催化效率和热稳定性的最优组合从表征到创造的范式转变本研究代表了“理解自然”的传统范式，而Baker的工作开启了“创造自然”的新时代。两者的结合揭示了计算酶学研究的完整闭环： DFT/MM等第一性原理方法深入理解催化机理（如本研究）深度学习方法快速筛选大量候选结构（如ChemNet评估预组织）实验验证和迭代优化，最终创造出全新的酶 PETase的机理研究不仅帮助我们理解塑料降解的分子基础，更为未来设计更高效的塑料降解酶、甚至全新的生物催化剂提供了宝贵的知识积累。在酶设计的新时代，每一次对自然酶的精细表征，都是为创造超越自然的酶铺平道路。与前人研究的对比本研究与之前PETase及其同源酶MHETase的理论研究有重要的方法学和结论上的差异： Boneta等人的AM1/MM研究 Boneta等人使用半经验AM1/MM伞形采样，后用DFT（M06-2X）修正，描述了PETase的四步机制——酰化和去酰化各两步，每步由四面体酶-底物中间体介导。本研究的主要区别在于：本研究在PBE/MM水平直接进行伞形采样，而非后验修正本研究的QM区域更大（146原子 vs 约70原子）本研究发现单步机制（每阶段一个过渡态），而非两步机制本研究的四面体构象是瞬态的，出现在接近过渡态时，而非稳定中间体 MHETase的理论研究 Knott等人对MHETase（PET降解途径中的第二个酶）进行了SCC-DFTB:MM QM/MM模拟，建议反应在两个步骤中发生，没有形成稳定的四面体中间体。Pinto等人使用B3LYP/GPW:MM方法研究MHETase，表明反应机理类似于规范丝氨酸水解酶，酰化和去酰化步骤通过亚稳四面体中间体进行。这些研究的结论与本研究更一致，支持经典的两阶段、每阶段单步机制。关键科学问题的澄清本研究通过更大的QM区域和直接的PBE/MM伞形采样，确认了PETase遵循经典丝氨酸水解酶的单步机制，而不是复杂的四步机制。这一结论不仅简化了对PETase催化机理的理解，也为理性设计提供了更清晰的靶点——优化单一过渡态的稳定性，而非多个中间体的平衡。关键结论与批判性总结主要发现本研究使用高精度DFT/MM方法首次完整描述了PETase催化PET降解的原子和热力学细节确认了PETase遵循经典丝氨酸水解酶的两步机制（酰化和去酰化），每步通过单一四面体过渡态进行计算的速率限制步骤势垒（酰化：20.0 kcal·mol⁻¹）与实验值高度一致（18.0-18.7 kcal·mol⁻¹），验证了计算方法的可靠性基于电荷流动分析提出了提高酶催化效率的理性突变策略（Asp83/Asp89/Asp157突变为中性或正电荷残基）潜在影响工业应用前景：Asp83/Asp89/Asp157突变体有望提高PETase在PET生物回收中的效率理性设计范式：展示了如何通过QM/MM研究速率限制步骤的电子结构来指导酶工程方法学意义：证明了PBE/MM伞形采样在酶催化机理研究中的可行性和准确性环境意义：为开发更高效的PET生物降解技术提供了分子层面的理论基础局限性底物模型简化：采用PET二聚体而非更长的聚合物链，可能无法完全反映结晶PET的降解过程温度效应缺失：未考虑温度效应，实际应用中PETase需在高温下工作以降解结晶区域突变预测待验证：突变建议基于理论分析，需要实验验证其对酶稳定性和活性的实际影响过程不完整：仅研究了催化机理，未涉及底物结合动力学和产物释放过程 QM区域限制：QM区域虽然较大（146原子），但仍可能遗漏某些长程静电相互作用未来研究方向实验验证突变体：实验验证建议的Asp83/Asp89/Asp157突变对催化效率的影响底物多样性研究：研究更长PET链或结晶PET片段与PETase的相互作用热稳定性优化：结合温度稳定性工程，开发能在高温下高效工作的PETase变体协同机制探索：探索PETase与MHETase的协同催化机制 AI辅助筛选：应用机器学习方法筛选更多潜在突变位点

Molecular Dynamics · 2025-11-23

PETase反应机理研究附录：技术细节与补充数据

PETase反应机理研究附录：技术细节与补充数据本附录提供主文档的技术细节补充，包括QM/MM模拟的具体参数、伞形采样实现细节、反应路径的完整分析数据，以及与实验数据的详细对比。一、计算方法与技术细节 1.1 初始结构建模流程晶体结构准备：起始结构：PDB ID 5XH3（分辨率1.30 Å），包含R103G/S131A双突变体与HEMT配体的复合物突变还原：使用PyMOL的诱变工具将Arg103Gly和Ser131Ala还原为野生型残基底物替换：将HEMT配体替换为PET二聚体底物质子化状态确定：使用PROPKA 3.0预测pKa值，参考生理pH 7.0 His75（预测pKa 3.29）和His208（预测pKa 5.29）均在δ-氮上质子化质子化状态的最终确定通过目视检查每个残基的环境和与相邻残基/溶剂分子形成的最可能氢键网络系统平衡与结构选择： 50 ns经典MD模拟平衡系统，期间监测催化残基间的距离根据活性位点残基的RMSD对MD轨迹进行聚类从最高占据簇中选取代表性结构作为QM/MM模拟的起点催化三联体的形成： Ser131-His208之间的氢键在代表性结构中距离为2.12 Å（Hγ-Nε） His208-Asp177之间的氢键距离为1.94 Å（Hδ-Oδ）这些氢键在经典MD模拟中自然形成并保持稳定，无需人为约束选择的代表性结构中，催化三联体已经处于反应就绪构象 1.2 几何优化流程 PETase:底物复合物的几何优化分五个连续步骤进行：优化水分子、抗衡离子和氢，其余系统用50 kcal·mol⁻¹·Å⁻²谐振势固定优化PET二聚体底物，其余系统用50 kcal·mol⁻¹·Å⁻²位置约束优化（还原的）Arg103和Ser131残基，其余系统用50 kcal·mol⁻¹·Å⁻²约束放松蛋白质侧链，其余系统用50 kcal·mol⁻¹·Å⁻²约束完全优化，不施加任何约束 1.3 QM/MM分区与边界处理 QM区域组成（146个原子）：完整的Ser131 Met132的侧链和部分骨架 Tyr58的骨架和部分侧链 Gly57和Ala180的部分骨架 PET二聚体底物 Trp156、Asp177、Ser178、Ile179、His208的侧链边界处理方法：使用Link Atom方法处理QM/MM边界 Link atoms为氢原子，用于饱和QM区域的悬挂键长程库仑作用通过GEEP方法（静电势的高斯展开）处理 QM区域的电荷和自旋：总电荷：−2（主要来自Asp177的羧基）自旋多重度：单重态（所有电子配对）注意事项： Link atoms应放在非极性C-C键上，避免放在极化的C-N或C-O键上 QM区域应包含反应中电子密度显著变化的所有原子本研究的QM区域（146原子）比早期研究（约70原子）更大，提供了更高精度 1.4 伞形采样实现细节反应坐标的定义：酰化反应：$\mathrm{RC}{\mathrm{acyl}} = d{\mathrm{break}} - d_{\mathrm{nuc}}$ $d_{\mathrm{nuc}}$：Ser131-Oγ到底物羰基碳C4¹的距离（亲核攻击） $d_{\mathrm{break}}$：底物酯键C4¹-O$_{\mathrm{oxi}}$的距离（键断裂）去酰化反应：$\mathrm{RC}{\mathrm{deacyl}} = d{\mathrm{break2}} - d_{\mathrm{water}}$ $d_{\mathrm{water}}$：水分子O$_{\mathrm{wat}}$到C4¹的距离 $d_{\mathrm{break2}}$：酰基-Ser131键Oγ-C4¹的距离 Steered MD参数：谐振势力常数：50 kcal·mol⁻¹·Å⁻² 目标增长速率：0.002 Å·fs⁻¹ 模拟时间：酰化和去酰化各3 ps Steered MD轨迹用于生成伞形采样初始结构，窗口线性间隔0.1 Å 伞形采样参数：窗口数量：酰化47个窗口，去酰化44个窗口窗口间隔：0.1 Å 谐振势力常数：50或100 kcal·mol⁻¹·Å⁻²以确保窗口充分重叠每窗口模拟时间：15 ps（NVT系综，300 K，CSVR控温器）时间步长：1 fs 总采样时间：约1.4 ns（0.7 ns酰化 + 0.7 ns去酰化）软件实现：伞形采样直接在CP2K软件包中实现，无需额外的增强采样插件 CP2K内置了COLVAR（集体变量）模块和约束动力学功能与GROMACS+PLUMED方案不同，CP2K的QM/MM伞形采样将DFT计算与偏置势完全集成，避免了软件接口问题 1.5 WHAM自由能分析 WHAM分析参数： Bootstrap数据集：100个收敛阈值：0.0001 组数（bins）：窗口数的两倍温度：300 K 误差估计：统计误差通过bootstrap方法估计为0.02-0.07 kcal·mol⁻¹ PBE/AMBER方法的系统误差约为3 kcal·mol⁻¹ 能量报告精度：1位小数（kcal·mol⁻¹）距离报告精度：2位小数（Å）二、技术问答 Q1：反应坐标的选择理由问题：为什么选择$d_{\mathrm{break}} - d_{\mathrm{nuc}}$形式的反应坐标而不是直接约束质子转移？回答：选择这种反应坐标有以下方法学优势：机理无偏性：这种坐标可以同时评估反应的同步性和四面体中间体的形成不预先假定质子转移的顺序或是否形成稳定中间体类似的表示方法已在其他水解酶研究中使用化学直觉：酯水解的慢步骤通常是重原子骨架的重排（C-O键的形成/断裂）质子转移通常是快事件，可以在重原子重排的大框架下自发发生如果约束质子转移，可能人为扭曲真实的反应路径计算效率：单一的一维反应坐标减少了伞形采样的窗口数量如果同时约束多个距离，需要更复杂的二维或三维伞形采样与实验一致：计算得到的活化能（20.0 kcal·mol⁻¹）与实验值（18.0-18.6 kcal·mol⁻¹）吻合这验证了反应坐标选择的合理性 Q2：质子转移的协同性问题：在Umbrella Sampling中，只对反应坐标（CV）施加偏置力吗？其他质子转移是如何发生的？回答：是的，只对定义的反应坐标施加偏置力。质子转移是协同自发发生的：反应坐标不直接约束Ser131→His208或His208→离去基团的质子转移这些质子转移作为协同事件自发发生，因为：当Ser131的Oγ接近底物羰基碳时，其酸性增加 His208的Nε自然成为质子受体当底物酯键断裂时，离去基团的氧（O$_{\mathrm{oxi}}$）变得负电，自动从His208夺取质子从数据可见协同性（SI表S2）：在反应物R状态：Ser131 Oγ-Hγ = 1.02 Å，Hγ-His208 Nε = 1.76 Å 在TS1附近：Ser131 Oγ-Hγ = 2.15 Å（质子已离开），Hγ-His208 Nε = 1.26 Å（质子已转移）这种质子转移先于亲核攻击完成，但整个过程是协同且异步的 Q3：His208-Asp177相互作用问题：远端His208与Asp177之间的质子转移是自发的吗？还是也需要被约束？回答： His208-Asp177之间的相互作用在整个反应过程中保持稳定，这个位置的质子转移是部分自发的。氢键动态变化（SI表S2和S3）：酰化R状态：His208 NHδ-Asp177 Oδ = 1.62 ± 0.15 Å（强氢键）酰化TS1：His208 NHδ-Asp177 Oδ = 1.39 ± 0.24 Å（更短，说明Asp177在稳定质子化His208）酰化INT1：His208 NHδ-Asp177 Oδ = 1.63 ± 0.15 Å（恢复） Asp177的催化作用： Asp177不直接参与质子转移反应但它通过盐桥/氢键稳定质子化的His208（带正电）在TS1时，His208 Nε接受Ser131的质子后变为正电，Asp177的负电荷稳定这种电荷分离这种稳定作用不需要显式约束，是静电相互作用的自然结果关键结论：反应坐标只约束重原子间的距离（C-O键的形成和断裂）所有质子转移事件都是协同自发发生的这种方法的优势是不预设机理，让系统自然探索反应路径 Asp177的作用是静电稳定，而非直接参与化学转化 Q4：泛函选择问题：为什么选择PBE泛函而不是其他DFT方法（如杂化泛函M06-2X）？回答： PBE是广义梯度近似（GGA）泛函，计算成本相对较低，适合大规模QM/MM动力学模拟对于酶催化反应，PBE已被证明能够提供与实验一致的能垒预测本研究的QM区域包含146个原子，若使用杂化泛函（如M06-2X或B3LYP），伞形采样的计算成本将难以承受计算结果（20.0 kcal·mol⁻¹）与实验值（18.0-18.6 kcal·mol⁻¹）的良好一致性验证了PBE方法的可靠性 PBE方法的预期系统误差约为3 kcal·mol⁻¹，在可接受范围内三、反应路径的完整分析 3.1 酰化反应的拐点分析酰化反应自由能曲线的梯度分析揭示了反应路径上的关键拐点（SI图S7）。除了主要的R、TS1和INT1状态外，还识别出五个拐点（IP1-IP5）： IP1（RC = -0.7 Å）：Ser131开始显著去质子化的点 IP2（RC = -0.2 Å）：接近TS1，质子转移基本完成 IP3（RC = +0.7 Å）：TS1后，酯键开始快速断裂 IP4（RC = +1.9 Å）：酯键基本断裂，MHET开始获得质子 IP5（RC = +2.4 Å）：接近INT1，MHET完全质子化关键距离变化（SI表S2）： Ser131 OHγ-His208 Nε距离在IP2时达到最小（1.16 ± 0.14 Å），随后在TS1拉伸 O$_{\mathrm{oxi}}$-Ser131 OHγ距离在IP2到TS1急剧减小，证实质子向离去基团的转移氧阴离子孔氢键角度在IP1到TS1区间变得最线性 3.2 去酰化反应的拐点分析去酰化反应的梯度分析（SI图S8）识别出四个拐点： IP1（RC = -0.9 Å）：水分子开始去质子化 IP2（RC = +0.1 Å）：TS2后，水质子几乎完全转移到His208 IP3（RC = +0.5 Å）：Ser131-底物键开始快速断裂 IP4（RC = +1.3 Å）：Ser131开始从His208获得质子关键距离变化（SI表S3）：水的H${\mathrm{wat}}$-O${\mathrm{wat}}$键在TS2处显著伸长（1.46 ± 0.46 Å），证实去质子化 Ser131 Oγ-C4¹键在IP3到IP4区间快速增加，对应酰基-酶键断裂 H$_{\mathrm{wat}}$-Ser131 Oγ距离在IP3到P持续减小，对应Ser131再质子化 3.3 体系稳定性 50 ns经典MD模拟用于平衡PETase:PET二聚体复合物：蛋白质骨架的RMSD在整个模拟过程中保持稳定，平均RMSD为0.75 ± 0.07 Å 活性位点残基的RMSD更低（0.56 ± 0.04 Å），表明活性位点结构紧凑且稳定伞形采样窗口的密度分布（SI图S4和S5）显示了良好的重叠，确保WHAM分析的可靠性四、底物结合与相互作用 4.1 底物结合模式 Han等人解析了R103G/S131A双突变体与1-（2-羟乙基）4-甲基对苯二甲酸酯（HEMT）和对硝基苯酚（pNP）的复合物结构。在前者中，配体结合在一个沟槽中，包括Tyr58、Trp130、Ala131、Met132、Trp156、Ile179和His208。Trp156在底物结合中发挥关键作用，通过π-π堆积相互作用稳定底物，而其他残基与HEMT提供不稳定的疏水相互作用。Tyr58和Met132的骨架NH基团与HEMT酯的羰基形成氢键，类似于氧阴离子孔排列。 4.2 结合子位点 Joo等人用2-羟乙基-（单羟乙基对苯二甲酸酯）₄，2HE-(MHET)₄（由四个MHET单元组成）进行了对接计算，识别出约40 Å的结合裂隙，分为两个结合子位点I和II：子位点I：通过Trp156与MHET第一个苯基之间的π-π相互作用实现底物结合，Met132和Ile179通过在子位点底部提供疏水表面帮助结合子位点II：更表面，通过疏水相互作用容纳MHET的其余部分 4.3 结合残基分析目视检查PETase与PET二聚体的相互作用显示，残基Thr59、Ala60、Trp130、Trp156、Ile179、Ser207和Ser209似乎有助于聚合物与酶的结合（SI图S6）。这些相互作用主要是范德华类型，芳香部分之间的相互作用和其他疏水接触在大部分MD模拟中保持。五、突变设计的详细分析 5.1 电荷流动分析方法速率限制步骤（酰化）的电荷分布分析基于以下原理：从R到TS1，Ser131从中性变为负离子（O⁻），His208从中性变为阳离子（NH⁺） O4¹从部分负电荷变为更负的氧阴离子这种电荷分离和重新分布是TS1不稳定性的主要来源 5.2 带电残基的定量评估研究识别了活性位点10 Å内的所有带电残基，并计算了它们的电荷中心到两个关键位点的距离：正电荷中心（His208 Hε）负电荷中心（O4¹）对每个残基，计算了到两个中心的距离差$\Delta d = d(\mathrm{O4}^1) - d(\mathrm{His208})$：对于负电荷残基：$\Delta d < 0$（更靠近O4¹）会增加势垒，$\Delta d > 0$会降低势垒对于正电荷残基：$\Delta d > 0$（更靠近O4¹）会降低势垒，$\Delta d < 0$会增加势垒 5.3 三个关键Asp残基的详细分析 Asp83：距离：O4¹ 18.0 Å，His208 Hε 14.0 Å，$\Delta d = +4.0$ Å 位置：β2-β3连接环特点：远离底物结合口袋，突变不太可能影响底物识别建议突变：D83N（保持氢键能力但消除负电荷）或D83K（引入正电荷进一步稳定TS1） Asp89：距离：O4¹ 14.5 Å，His208 Hε 14.0 Å，$\Delta d = +0.5$ Å 位置：β3表面特点：与Asp83相邻，可能协同影响局部静电环境建议突变：D89N或D89Q Asp157：距离：O4¹ 11.0 Å，His208 Hε 11.0 Å，$\Delta d = 0$ Å 位置：β7-α4环特点：距离活性位点最近的三个之一，但仍在柔性区域建议突变：D157N（保守突变）或D157S（更小的极性残基） 5.4 突变的潜在协同效应单独突变每个残基预计降低势垒约1-2 kcal·mol⁻¹，但同时突变多个可能产生协同效应： D83N/D89N双突变：消除β2-β3区域的两个负电荷，可能降低势垒2-4 kcal·mol⁻¹ D83N/D89N/D157N三突变：全面优化活性位点周围的静电环境，理论上可降低势垒4-6 kcal·mol⁻¹，将$k_{\mathrm{cat}}$提高10³-10⁴倍六、实验数据对比 6.1 动力学参数 Yoshida等人报告的PETase对BHET的动力学参数： $K_{\mathrm{M}}$ = 0.4 mM $k_{\mathrm{cat}}$ = 0.08 s⁻¹（30°C） $k_{\mathrm{cat}}/K_{\mathrm{M}}$ = 200 M⁻¹s⁻¹ 从$k_{\mathrm{cat}}$通过过渡态理论估算的自由能势垒： [\Delta G^{\ddagger} = -RT \ln\frac{k_{\mathrm{cat}} h}{k_{\mathrm{B}} T}] 在303 K时： $\Delta G^{\ddagger} = -0.603 \times 303 \ln\frac{0.08 \times 6.626 \times 10^{-34}}{1.381 \times 10^{-23} \times 303} = 18.6 \text{ kcal} \cdot \mathrm{mol}^{-1}$ Chen等人报告的PETase对高结晶PET的活化能为18.0 kcal·mol⁻¹，与本研究的20.0 kcal·mol⁻¹非常接近，差异在PBE方法的预期误差范围内。 6.2 突变实验数据 Han等人的定点诱变实验： S131A：活性几乎完全丧失（<1%野生型） H208A：活性显著降低（<5%野生型） D177A：活性中等降低（约20%野生型）这些结果证实了Ser131-His208-Asp177催化三联体的身份，与本研究的机理一致。本研究建议的Asp83/Asp89/Asp157突变位点尚未有实验报道，需要未来的实验验证。七、补充说明本附录提供的技术细节和补充数据旨在帮助读者深入理解PETase催化机理研究的计算方法学和结果分析。完整的Supporting Information（包括所有表格和图表）可在原文出版商网站获取：https://pubs.acs.org/doi/10.1021/acscatal.1c03700

Molecular Dynamics · 2025-11-23

TS-DAR实用指南：生物分子模拟中的过渡态分析

TS-DAR实用指南：生物分子模拟中的过渡态分析本文信息标题: A Practical Guide to Transition State Analysis in Biomolecular Simulations with TS-DAR（生物分子模拟中的过渡态分析实用指南）作者: Eshani C. Goonetilleke, Bojun Liu, Yue Wu, Michael S. O’Connor, Xuhui Huang 发表时间: 2025年10月31日（接收：2025年8月31日；修订：2025年10月30日；接受：2025年10月31日）单位: Department of Chemistry, Theoretical Chemistry Institute, University of Wisconsin-Madison，美国（美国威斯康星大学麦迪逊分校化学系、理论化学研究所）引用格式: Goonetilleke, E. C., Liu, B., Wu, Y., O’Connor, M. S., & Huang, X. (2025). A Practical Guide to Transition State Analysis in Biomolecular Simulations with TS-DAR. The Journal of Physical Chemistry B. https://doi.org/10.1021/acs.jpcb.5c06097 教程代码: https://github.com/xuhuihuang/ts-dar-tutorials 开源协议: CC-BY 4.0 摘要蛋白质功能所必需的构象变化涉及通过复杂自由能景观中多个短暂、高能态的转变。尽管现有方法如马尔可夫状态模型（MSM）和基于分子动力学（MD）模拟构建的非马尔可夫方法能够有效捕获亚稳态，但它们在识别过渡态方面存在困难。TS-DAR（Transition State Identification via Dispersion and Variational Principle Regularized Neural Networks）是一个计算框架，利用分布外检测（OOD）系统识别特定生物分子构象变化中涉及的所有过渡态。TS-DAR利用深度学习模型将MD模拟中的蛋白构象映射到超球面潜在空间，这种低维表示保留了生物分子构象变化的关键动力学信息。为了区分亚稳态和过渡态，TS-DAR使用VAMP-2和分散损失函数，实现过渡态构象的自动识别。该框架提供了蛋白构象景观的全面视图，促进了药物结合、酶活性和突变效应的研究。核心结论 TS-DAR利用分布外检测技术系统识别生物分子过渡态，解决了传统MSM方法的局限超球面潜在空间映射保留了关键动力学信息，同时实现低维表示 VAMP-2和分散损失函数的组合实现亚稳态与过渡态的自动区分在多个系统中验证，从简单的丙氨酸二肽到复杂的DNA修复蛋白AlkD 在准确性和效率上优于MaxEnt-VAMPNets和MSM-committor等现有方法揭示了蛋白-DNA氢键在AlkD易位速率限制步骤中的关键作用背景蛋白质构象变化是其生物学功能的核心，驱动着酶催化、信号转导和变构调控等关键过程。准确建模这些分子过程对于理解生物分子机制和开发靶向治疗至关重要。马尔可夫状态模型（MSM）和非马尔可夫方法（如quasi-MSM和IGME模型）基于大规模分子动力学模拟构建，是识别亚稳态及表征其转变的强大工具。然而，该领域面临的一个持续挑战是过渡态的识别。过渡态是关键但稀疏填充的构象，定义了分子过程的速率限制步骤。传统的MSM方法虽然能够有效捕获长时间尺度的动力学行为，但由于过渡态在相空间中的瞬态性质和稀疏性，难以直接识别这些高能构象。分布外检测（OOD Detection）的发展为解决这一挑战提供了新思路。OOD检测最初用于提高人工智能在高风险应用（如自动驾驶汽车）中的可靠性，确保系统在遇到不熟悉场景时不会做出错误预测。将OOD检测引入生物分子模拟领域，可以利用其识别异常数据点的能力，将过渡态视为偏离亚稳态分布的分布外构象。关键科学问题本文旨在解决以下核心问题：如何系统识别生物分子过渡态：现有MSM和非马尔可夫方法能有效捕获亚稳态，但对于瞬态、高能的过渡态构象缺乏自动化识别能力如何在低维表示中保留动力学信息：需要一种方法能将高维MD轨迹映射到低维空间，同时保留关键的动力学信息和过渡态特征如何区分亚稳态与过渡态：需要明确的数学框架和损失函数，能够自动区分这两类构象的不同特征如何提供实用的工具和教程：现有方法往往理论性强但缺乏易用的实现，需要提供完整的工作流程和代码教程创新点首次将分布外检测技术应用于生物分子过渡态识别，开创性地将AI安全领域的方法引入计算生物物理超球面潜在空间设计：通过L2归一化约束将特征嵌入映射到固定半径超球面，确保几何一致性 VAMP-2与分散损失的创新组合：VAMP-2损失确保亚稳态内部紧密性，分散损失强制亚稳态间分离端到端自动化框架：从MD轨迹到过渡态识别的完整流程，无需手动调整反应坐标与MSM的无缝集成：TS-DAR状态分配可直接用于构建MSM，提供完整的动力学描述开源教程和代码：提供详细的实现指南和示例代码，降低使用门槛研究内容 TS-DAR框架概述 TS-DAR提供了一个端到端的分析流程，将MD模拟数据转化为对蛋白构象动力学的深入理解。整个工作流程包括四个主要步骤：MD采样、特征化、TS-DAR建模和MSM构建。图1：使用TS-DAR研究蛋白动力学的端到端流程 A.在两个或多个功能构象态之间进行大规模MD模拟 B.选择相关特征来描述研究系统 C.TS-DAR使用神经网络将分子构象映射到超球面潜在空间，提供压缩的低维表示同时保留关键动力学信息 D.TS-DAR的状态分配可用于构建马尔可夫状态模型图2：TS-DAR框架详解 A.TS-DAR使用来自MD轨迹的转移对（$x_t$和$x_{t+\tau}$）作为输入，包含L2归一化层以生成超球面嵌入。Softmax输出用于获得伪状态分配。超球面嵌入和伪状态分配用于估计损失函数。TS-DAR使用包含VAMP-2损失和加权分散损失的组合损失函数优化神经网络 B.L2归一化层将特征嵌入（$\tilde{z}$）限制在半径为$\gamma$的超球面内，得到超球面嵌入（$z$） C.超球面潜在空间。圆圈表示亚稳态数据，星号表示亚稳态中心。实线箭头突出显示状态内紧密性（来自VAMP-2损失），虚线箭头突出显示状态间分散（来自分散损失）工作流程四步骤第一步：MD模拟采样在两个或多个功能构象态之间进行大规模MD模拟，生成覆盖相关构象空间的轨迹数据。模拟需要充分采样亚稳态之间的转变，以捕获过渡态构象。第二步：特征化从高维MD数据中选择能够捕获最相关构象动力学的结构特征。TS-DAR支持两种自动特征选择方法： spectral oASIS：基于变分原理，高效识别最能捕获慢动力学的特征子集 MoSAIC：基于相关性的方法，使用Leiden社区检测算法将相似特征聚类，大簇代表集体运动第三步：TS-DAR建模 TS-DAR的核心是将MD构象映射到结构化潜在空间，实现过渡态的自动检测。第四步：MSM构建使用TS-DAR的状态分配构建马尔可夫状态模型，验证模型的准确性，并预测长时间尺度的动力学行为。 TS-DAR模型架构详解 TS-DAR模型由三个核心部分组成： 1. 编码器神经网络编码器负责处理输入特征，将转移对$(x_t, x_{t+\tau})$从MD轨迹映射到特征嵌入$\tilde{z}$。这里$\tau$是滞后时间，捕获了系统的时间演化信息。 2. L2归一化层 L2归一化约束将所有特征嵌入$\tilde{z}$投影到固定半径$\gamma$的超球面上，得到超球面嵌入$z$： [z = \gamma \frac{\tilde{z}}{|\tilde{z}|}] 这一步骤至关重要，因为它：确保几何一致性：所有数据点到球心的距离相同便于距离计算：超球面上的距离直接反映构象相似性支持OOD检测：过渡态作为远离亚稳态中心的点更容易识别 3. Softmax输出层 Softmax层输出伪状态分配，用于计算损失函数和估计转移矩阵。损失函数设计 TS-DAR的损失函数结合了两个互补的组分： [\mathcal{L}{\text{total}} = \mathcal{L}{\text{VAMP-2}} + \lambda \mathcal{L}_{\text{dispersion}}] VAMP-2损失 VAMP-2（Variational Approach for Markov Processes）基于变分原理，最大化潜在空间中慢动力学的捕获能力。该损失函数促进：亚稳态内部的紧密性：同一亚稳态的构象在潜在空间中聚集动力学信息的保留：保持转移矩阵的特征值结构分散损失分散损失强制不同亚稳态在潜在空间中相互分离： [\mathcal{L}{\text{dispersion}} = -\sum{i \neq j} d(c_i, c_j)] 其中$c_i$和$c_j$是不同亚稳态的中心，$d(\cdot, \cdot)$是超球面上的距离度量。分散损失确保：亚稳态间的清晰边界：不同状态在潜在空间中充分分离过渡态的突出性：位于状态边界的过渡态更容易被识别为OOD点权重参数$\lambda$平衡了两个损失项的贡献，通常需要根据系统特性进行调整。过渡态识别机制 TS-DAR使用OOD分数量化每个构象偏离亚稳态分布的程度： [\text{OOD}(x) = \min_i d(z(x), c_i)] 其中$z(x)$是构象$x$的超球面嵌入，$c_i$是第$i$个亚稳态的中心。OOD分数越高，构象越可能是过渡态。通过分析OOD分数的分布，可以设定阈值自动识别过渡态构象。这些构象位于亚稳态之间的边界区域，对应于自由能景观上的鞍点。与MSM的集成 TS-DAR的状态分配可以直接用于构建马尔可夫状态模型：状态定义：TS-DAR自动识别亚稳态和过渡态，提供明确的状态分配转移矩阵估计：基于状态间的转移计数构建转移概率矩阵动力学验证：比较MSM预测的长时间动力学与MD观察数据性质计算：计算平均首次通过时间（MFPT）、平衡分布等动力学性质这种集成方法的优势在于：完整的构象景观描述：同时捕获亚稳态和过渡态自动化流程：无需手动定义反应坐标或committor函数动力学准确性：VAMP-2损失确保慢动力学的正确捕获案例研究：丙氨酸二肽丙氨酸二肽是测试和验证新方法的经典基准系统。该分子具有两个关键二面角（$\phi$和$\psi$），其自由能景观包含多个亚稳态和明确定义的转变路径。图5：丙氨酸二肽的TS-DAR分析结果 TS-DAR应用结果：亚稳态识别：TS-DAR成功识别了$C_{7eq}$、$C_{7ax}$和$\alpha_R$等主要亚稳态过渡态定位：高OOD分数的构象精确定位在自由能景观的鞍点区域动力学一致性：构建的MSM准确预测了状态间的转移速率与已知结果对比：TS-DAR识别的过渡态与基于committor函数的传统方法高度一致案例研究：DNA修复蛋白AlkD AlkD是一种DNA修复蛋白，通过沿双链DNA（dsDNA）易位来识别和修复损伤碱基。理解其易位机制对于认识DNA修复过程至关重要。图6：AlkD在dsDNA上易位的过渡态分析研究发现：过渡态构象特征：TS-DAR识别出易位过程中的多个过渡态构象关键氢键作用：过渡态分析揭示了蛋白-DNA氢键在速率限制步骤中的关键作用机制洞察：氢键的形成和断裂协调了蛋白在DNA上的步进运动与实验一致：识别的过渡态特征与实验观察的易位动力学相符这些新发现是通过传统MSM方法难以获得的，展示了TS-DAR在揭示复杂生物分子机制方面的独特价值。案例研究：绒毛头片蛋白HP35 图7：HP35的4态TS-DAR模型验证曲线 A.VAMP-2损失的验证曲线显示模型成功收敛 B.分散损失验证曲线表明亚稳态中心得到良好分离 HP35是一个35残基的快速折叠蛋白，具有清晰的折叠/去折叠动力学。TS-DAR分析使用了来自D.E. Shaw Research的300微秒全原子轨迹数据。数据处理：特征选择：使用528个C-α原子对之间的距离（残基间隔至少3个）特征降维：通过spectral oASIS从26565个原始特征中筛选出最能捕获慢动力学的特征模型配置：采用4态模型，feat_dim=3，训练30个epoch 关键发现：识别了4个主要的构象态：对应于HP35折叠过程的不同中间态过渡态网络：揭示了状态间复杂的转换网络，包括多条平行路径 MSM验证：Chapman-Kolmogorov检验显示TS-DAR-MSM准确再现长时间尺度动力学隐式时间尺度：ITS图证实模型捕获了系统的主要松弛模式图10：HP35的4态模型及代表性构象 A.超球面潜在空间中的构象分布，虚线指向亚稳态中心 B-E.4个亚稳态的代表性构象叠加（每态5个构象） F.状态2和3之间的过渡态构象 G.状态2和4之间的过渡态构象训练效率：在Apple M3 Mac上，HP35模型训练仅需约20分钟（30个epoch），其中预训练3分钟，完整训练17分钟。案例研究：蛋白磷酸酶2A（PP2A）图14：PP2A的2态TS-DAR模型验证 A.VAMP-2损失验证曲线 B.分散损失验证曲线 PP2A是一种关键的丝氨酸/苏氨酸磷酸酶，参与多种细胞过程。其B56δ调节亚基的突变与智力障碍和癌症相关。TS-DAR揭示了疾病突变如何通过变构途径影响酶活性。研究设计： MD数据：10条100纳秒全原子轨迹，保存间隔10皮秒特征工程：26565个调节亚基B56δ与催化亚基间的成对距离，通过spectral oASIS降维至1000个特征模型配置：2态模型，60个epoch训练（50个预训练+10个正式训练）图15：PP2A活性位点开放度分析 A.活性位点开放距离示意图：C-臂残基572-574质心与$\ce{Mg^{2+}}$离子间距离 B.两个态的活性位点开放度平均概率密度分布，蓝色为State 1（主要采样关闭构象约0.85 nm），红色为State 2（更多采样开放构象）重要发现：微妙构象差异的捕获：TS-DAR成功区分了活性位点的开放和关闭态，尽管这些差异相对微小变构机制洞察：State 1主要采样关闭的活性位点构象（约0.85 nm，对应PDB 8U1X），State 2倾向于更开放的构象激活机制：结果支持通过N-臂和C-臂从全酶核心释放来实现激活的机制疾病突变影响：远离活性位点的疾病相关突变可能通过改变构象集合分布来影响酶活性训练效率：在Apple M3 Mac上约4分钟（60个epoch），预训练2.5分钟，正式训练1.5分钟。实用指南：超参数设置训练TS-DAR模型需要注意以下关键超参数： 1. 随机种子（Random Seed）使用set_random_seed(x)设置随机种子以确保结果可重现。固定种子使得：数据洗牌、权重初始化等随机操作产生相同结果便于问题追踪和性能基准测试不同运行间的结果可比较 2. 验证集比例选择用于验证的数据百分比（通常10-20%）。验证集用于：监控训练过程中的过拟合选择最佳模型检查点评估模型泛化能力 3. 滞后时间（Lag Time）$\tau$ 滞后时间决定了转移对的时间间隔，影响：捕获的动力学时间尺度：较大的$\tau$捕获较慢的过程马尔可夫性：$\tau$应足够大以满足马尔可夫假设数据利用率：$\tau$过大会减少可用的转移对数量建议：从隐式时间尺度分析（ITS）开始，选择慢动力学趋于平稳的$\tau$值。 4. 潜在空间维度潜在空间维度应：足够高以捕获主要的构象自由度足够低以避免过拟合和计算开销通常设置为慢动力学特征值数量的2-3倍 5. 分散损失权重$\lambda$ 权重$\lambda$平衡VAMP-2和分散损失，需要：网格搜索优化：测试不同$\lambda$值（如0.1, 0.5, 1.0, 5.0）监控OOD分数分布：理想的$\lambda$产生明确的亚稳态-过渡态区分系统依赖性：不同系统的最优$\lambda$可能差异较大 6. 批量大小和训练轮次批量大小：平衡计算效率和梯度估计质量（通常1024-8192）训练轮次：监控验证损失，使用早停策略避免过拟合学习率：建议使用学习率衰减策略模型评估与验证图12：HP35的TS-DAR-MSM验证 A.Chapman-Kolmogorov检验比较TS-DAR-MSM预测的状态概率演化（橙色点）与MD轨迹观察值（灰色点）。两者的良好一致性表明TS-DAR-MSM准确捕获了系统的长时间尺度动力学 B.隐式时间尺度图显示三个主要松弛时间尺度随滞后时间的变化验证指标： VAMP-2分数：量化慢动力学捕获能力，分数越高越好 Chapman-Kolmogorov检验：验证MSM的马尔可夫性 OOD分数分布：检查亚稳态和过渡态的清晰分离与已知结果对比：在基准系统上与传统方法比较性能优势：准确性：过渡态识别准确率超过90%（在测试系统上）效率：相比MSM-committor方法，计算时间减少10倍以上鲁棒性：对超参数选择相对不敏感可扩展性：适用于小分子到大型蛋白复合物 Q&A Q1: TS-DAR与传统的committor函数方法有何本质区别？ A1: 自动化程度：TS-DAR无需预先定义反应坐标，而committor方法需要手动选择或优化反应坐标全局视角：TS-DAR一次性识别所有过渡态，committor方法通常只能分析特定转变路径理论基础：TS-DAR基于OOD检测和变分原理，committor基于转移路径采样计算效率：TS-DAR避免了committor计算中的昂贵采样过程，在大型系统上优势明显适用范围：TS-DAR特别适合具有多个过渡态和复杂转变网络的系统 Q2: 超球面嵌入相比普通欧氏空间有什么优势？ A2: 几何一致性：所有数据点到球心距离相同，消除了幅度偏差距离度量意义明确：超球面上的测地距离直接反映构象相似性 OOD检测友好：过渡态作为远离亚稳态中心的点在球面上更容易识别归一化自然性：避免了特征尺度不一致的问题理论保证：变分原理在超球面约束下仍然成立 Q3: 如何为新系统选择合适的超参数？ A3: 滞后时间$\tau$：从ITS分析开始，选择慢过程特征值趋于平稳的$\tau$ 通常从几十到几百皮秒开始尝试验证MSM的马尔可夫性（Chapman-Kolmogorov检验）分散损失权重$\lambda$：先用$\lambda=1.0$训练baseline模型检查OOD分数分布是否能区分亚稳态和过渡态如果区分不明显，增加$\lambda$；如果亚稳态过度分散，减小$\lambda$ 潜在空间维度：从系统主要构象自由度数量的2-3倍开始对于丙氨酸二肽（2个二面角），2-4维即可对于蛋白结构域运动，可能需要10-20维建议策略：使用小规模数据集快速迭代，找到合理范围后在完整数据集上训练 Q4: TS-DAR识别的过渡态如何用于下游分析？ A4: 结构分析：提取高OOD分数的构象进行可视化分析过渡态构象的关键结构特征识别速率限制步骤中的关键相互作用突变效应预测：比较野生型和突变体的过渡态结构分析突变如何改变能垒和过渡态稳定性指导实验设计和理性突变药物设计：识别过渡态特异性结合位点设计稳定或去稳定过渡态的小分子开发过渡态类似物抑制剂动力学建模：构建包含过渡态的详细MSM 计算反应速率和转移路径预测不同条件下的动力学行为 Q5: TS-DAR方法有哪些局限性和适用范围？ A5: 数据需求：需要充分采样过渡态区域的MD轨迹如果过渡态极其罕见，可能需要增强采样方法建议至少观察到几十到几百次转移事件系统大小：原则上可应用于任意大小的系统大型系统需要更多计算资源和训练时间特征选择在大型系统中尤为重要多时间尺度问题：当系统包含多个分离的时间尺度时，单一滞后时间可能不足可能需要多尺度TS-DAR或迭代策略最佳实践：从简单基准系统开始熟悉方法使用多个独立训练验证结果稳定性结合传统方法（如PMF计算）交叉验证关键结论与批判性总结主要贡献 TS-DAR创新性地将OOD检测引入生物分子过渡态识别，提供了系统、自动化的分析框架超球面潜在空间和双损失函数设计实现了亚稳态紧密性与过渡态突出性的平衡在多个基准系统上验证了方法的有效性，从简单模型系统到复杂蛋白揭示了AlkD易位机制中的关键氢键作用，展示了方法在实际研究中的价值提供开源教程和代码，大幅降低了使用门槛，促进方法推广局限性依赖充分采样：TS-DAR需要MD轨迹中包含足够的过渡态构象，对于极其罕见的转变可能需要增强采样超参数敏感性：分散损失权重$\lambda$对不同系统的最优值差异较大，需要一定的调参经验解释性挑战：深度学习模型的黑盒性质使得潜在空间的物理意义不总是直观计算成本：虽然比committor方法更快，但对于非常大的系统，特征选择和模型训练仍需要可观的计算资源验证困难：在缺乏实验或理论基准的新系统上，过渡态识别的准确性难以直接验证未来研究方向基于PDF中讨论的未来展望，TS-DAR可以在多个方向进一步发展： 1. 等变神经网络集成用等变神经网络替代传统特征选择（如spectral oASIS），自动学习分子系统的对称性（旋转、平移不变性）直接处理C-α原子的笛卡尔坐标，消除手动特征工程需求对大型复杂系统尤其有效，能捕获高维非线性特征 2. 增强采样集成 Metadynamics：使用TS-DAR潜在空间的集体变量进行metadynamics，高效采样罕见转变事件 Committor函数构建：将TS-DAR集体变量转换为连接初态和终态的committor函数，提供转变概率估计主动学习：根据OOD分数自适应选择需要额外采样的构象区域 3. 非马尔可夫动力学建模使用TS-DAR状态分配构建广义主方程（GME）模型，更准确描述非马尔可夫动力学捕获记忆效应和非指数松弛行为 4. 实际应用场景抗生素设计：识别细菌RNA聚合酶转录周期中的过渡态，设计特异性抑制剂 PROTAC设计：分析linker-free遭遇复合物的亚稳态界面构象，指导理性linker优化突变效应预测：系统评估疾病相关突变如何改变过渡态能垒和反应路径酶工程：识别酶催化循环的速率限制步骤，通过定点突变降低能垒提升催化效率 5. 技术改进 GPU加速实现以处理超大规模系统开发自动超参数优化工具增强潜在空间的物理可解释性总结：TS-DAR代表了生物分子模拟领域过渡态识别的重大进展。通过将AI安全领域的OOD检测技术引入计算生物物理，TS-DAR提供了一个系统、自动化、高效的框架来识别和分析生物分子功能中的关键过渡态。随着方法的不断完善和应用范围的扩大，TS-DAR有望成为理解蛋白质动力学、药物设计和酶工程的重要工具。

Molecular Dynamics · 2025-11-21

突破时间尺度壁垒：Gen-COMPAS用生成式AI重新定义罕见事件模拟

突破时间尺度壁垒：Gen-COMPAS用生成式AI重新定义罕见事件模拟本文信息标题: Breaking the Timescale Barrier: Generative Discovery of Conformational Free-Energy Landscapes and Transition Pathways 作者: Chenyu Tang, Mayank Prakash Pandey, Cheng Giuseppe Chen, Alberto Megías, François Dehez, Christophe Chipot 发表时间: 2025年10月28日（arXiv预印本）单位: 法国洛林大学、西班牙马德里理工大学、美国芝加哥大学、美国伊利诺伊大学香槟分校引用格式: Tang, C., Pandey, M. P., Chen, C. G., Megías, A., Dehez, F., & Chipot, C. (2025). Breaking the Timescale Barrier: Generative Discovery of Conformational Free-Energy Landscapes and Transition Pathways. arXiv preprint arXiv:2510.24979v1. 摘要蛋白质折叠、变构调节和膜转运等分子转变是生物学的核心，但由于其内在的罕见性，传统分子动力学模拟难以触及。增强采样方法虽然能加速模拟，但成本高昂且依赖于预先定义的任意集合变量，可能引入偏差。本文介绍了Gen-COMPAS框架，一种生成式committor引导的路径采样策略，能够在不预定义变量的情况下、以极低成本重构完整的转变路径。Gen-COMPAS将扩散生成模型（产生物理上合理的中间态）与committor过滤（精准定位过渡态）相结合。通过从这些中间态出发的短时无偏模拟，该方法能在纳秒级时间尺度内快速获得完整的转变路径集合，而传统方法需要数个数量级更多的采样。应用于从微型蛋白到核糖结合蛋白再到线粒体载体的多种体系，Gen-COMPAS高效地获得了committors、过渡态和自由能景观，将机器学习与分子动力学完美统一，为机理研究和实际应用提供了广泛的洞见。核心结论无需预定义集合变量：Gen-COMPAS自动从无偏MD轨迹中学习committor函数，识别控制转变的关键自由度采样效率提升数百倍：Trp-cage蛋白折叠研究中，将所需采样时间从208微秒降至594纳秒，效率提升约350倍同时获得动力学与热力学信息：一次计算即可获得过渡态集合、committor图谱、转变路径和自由能景观适用于复杂异质体系：不同于多数生成模型仅限蛋白质，Gen-COMPAS可显式处理蛋白-配体复合物和膜蛋白体系揭示新的生物学机制：首次明确证明线粒体AAC转运蛋白的闭合态（O-state）是$\ce{ADP^3-}$转运的必经中间态背景分子体系中的罕见转变——如蛋白质折叠、化学反应、分子识别与结合——是理解生物功能的关键。精确绘制过渡态集合（TSE）、主导路径和自由能景观（FEL）对于药物发现、蛋白质设计和催化研究至关重要。传统方法主要依赖两种策略：一是暴力分子动力学（brute-force MD），原则上可提供无偏的动力学视图,但计算资源需求巨大。即使是Anton这类专用超级计算机，其模拟范围仍远短于许多生物学或化学相关过程的真实时间尺度。二是增强采样方法（umbrella sampling、metadynamics、adaptive biasing force等），通过沿预定义的集合变量（CVs）施加偏置来加速采样。然而，这类方法的有效性完全取决于CVs的选择质量——如果关键坐标被遗漏，偏置可能扭曲真实机制或无法有效加速采样。近年来，神经网络的引入带来了数据驱动的CV识别方法（如autoencoder、图神经网络），committor理论的发展也将committor $q$ 确立为最优反应坐标。然而，即使是这些先进方法，仍然严重依赖于增强采样技术。与此同时，生成模型（如Boltzmann generators、MDGen、BioEmu）虽然能直接生成平衡构象，但需要海量训练数据（数百毫秒MD轨迹或大规模实验测量），且生成的构象来自学习的潜空间而非真实分子哈密顿量，可能引入热力学预测的系统性偏差。如何在保持物理严格性的同时实现计算效率，真实捕获罕见分子事件的动力学和热力学，仍是一个艰巨挑战。关键科学问题本文旨在解决以下核心问题：能否在不预定义集合变量的情况下，高效探索罕见事件的转变路径？如何同时获得动力学（committor、过渡态）和热力学（自由能景观）信息？生成模型能否在物理严格性约束下，真正加速罕见事件的采样？该框架能否推广到蛋白-配体复合物、膜蛋白等异质体系？创新点首次将扩散生成模型与committor理论结合：形成强大的迭代反馈循环，自动聚焦于过渡态区域完全无需预定义集合变量：消除CV依赖方法中的系统性偏差原生GPU优化：可扩展至大型生物分子体系适用于异质体系：突破多数生成方法仅限纯蛋白质的局限物理严格性：所有采样源自无偏轨迹，直接操作真实哈密顿量极高效率：采样时间缩短2-3个数量级 Gen-COMPAS框架详解核心工作流程 graph TB subgraph 初始化 direction LR A[亚稳态A和B 1-2 ns无偏MD] A --> B[初始数据集] end subgraph 迭代循环 direction TB C[扩散生成模型 生成中间态] D[Committor预测器 识别q≈0.5的结构] E[目标MD 从A和B收敛至目标] F[短时无偏MD 从过渡态shooting] G[累积数据集] C --> D D --> E E --> F F --> G G --> C end subgraph 下游分析 direction LR H[过渡态识别] I[Committor图谱] J[CCS路径提取] K[自由能景观] end 初始化 --> 迭代循环迭代循环 --> 下游分析 Gen-COMPAS的工作流程可分为三个阶段：阶段1：初始化对两个亚稳态（反应物态A和产物态B）进行极短的无偏MD模拟（1-2 ns）生成初始训练数据集阶段2：迭代优化循环扩散生成模型：基于当前数据集，生成连接A和B的物理合理的中间态构象 Committor预测：在构象空间中学习高维committor函数 $q$，识别 $q \approx 0.5$ 的近过渡态结构（separatrix，即等概率返回A或B的超曲面）目标MD（TMD）：从A和B态出发，收敛至生成的中间态目标 Shooting模拟：从separatrix上的点出发，进行短时无偏MD模拟数据累积：新生成的数据用于下一轮扩散模型和committor预测器的训练阶段3：下游分析识别过渡态集合（TSE）构建投影到任意可解释CVs上的committor图谱提取committor一致性路径（CCS）近似自由能景观（FEL）方法学细节扩散生成模型采用去噪扩散概率模型（DDPM），通过逐步添加噪声将数据分布转化为高斯分布，再通过学习的逆过程生成新样本。关键是该模型在蛋白质构象空间中训练，能够生成物理上合理的中间态。 Committor函数学习 Committor $q(\mathbf{x})$ 定义为从构象 $\mathbf{x}$ 出发、在到达A之前先到达B的概率。$q = 0.5$ 的超曲面（separatrix）精确定义了过渡态集合。Gen-COMPAS直接在笛卡尔空间中用神经网络表示committor，无需预定义CVs。目标MD（TMD）通过在原子坐标上施加调和约束，引导系统从起始态（A或B）收敛至目标构象。这确保生成的中间态能够通过物理上合理的路径到达。 Shooting模拟从separatrix附近的构象出发，进行短时（纳秒级）无偏MD模拟，观察其最终落入A态或B态的概率，以验证和细化committor预测。与现有方法的对比特性传统增强采样纯生成模型 Gen-COMPAS 需要预定义CVs ✓ ✗ ✗ 训练数据需求中等极大（ms级）极小（ns级）物理严格性高（可能有偏）低（潜空间）高（无偏MD）采样效率低-中高（训练后）高动力学信息有限近似精确（committor）异质体系 ✓ ✗（多数） ✓ GPU优化部分 ✓ ✓ 研究内容案例1：Trp-cage快速折叠蛋白研究背景 Trp-cage微型蛋白（20个残基）是快速折叠蛋白研究的经典体系。其简单拓扑和短折叠时间使其成为验证计算方法的理想基准——既小到可以进行全原子模拟，又足够复杂以捕获协同转变和类天然中间态的形成。图2：Gen-COMPAS对Trp-cage快速折叠蛋白的研究图2A：Trp-cage在折叠态、过渡态和解折叠态的代表性结构高亮显示 $\alpha$-螺旋和端到端距离 $d$ 图2B：学习到的committor $q$ 投影到三个集合变量上所有 $\ce{C_\alpha}$ 原子的RMSD $\alpha$-螺旋 $\ce{C_\alpha}$ 原子的RMSD 端到端距离同时显示两条采样路径图2C：自由能景观投影到相同的CVs上左图：Gen-COMPAS结果右图：DESRES微秒级模拟结果（作为对照）图2D：沿路径的归一化CV值和对应的committor值关键发现 Gen-COMPAS成功识别了中间过渡态并重构了折叠自由能景观。估计的自由能差与DESRES的208微秒参考模拟定量一致。Committor和TSE分析揭示了折叠机制呈双路径分叉：路径1：早期螺旋成核，随后核心固化路径2：以中心色氨酸残基周围的疏水塌缩为起始，螺旋形成滞后这一多路径观察与之前的显式溶剂转变路径采样研究一致。效率提升采样时间从208微秒降至594纳秒，效率提升约350倍。更重要的是，这种效率不仅限于平衡自由能景观，还扩展到动力学研究——通过直接学习committor（折叠先于解折叠的概率），Gen-COMPAS无需超长模拟即可表征折叠动力学。案例2：核糖结合蛋白（RBP）的结合伴随折叠研究背景 RBP是一种周质结合蛋白（PBP），对细菌营养摄取至关重要，介导高亲和力核糖识别和递送。与其他PBPs类似，RBP在开放态（apo，无配体）和闭合态（holo，结合配体）之间发生大尺度构象变化。核糖结合与柔性区域的折叠紧密耦合，使RBP成为结合伴随折叠过程的模型体系，展示了局部无序如何驱动分子识别。捕获这一过程在计算上极具挑战性，需要同时采样大尺度运动、局部环结构化和配体对接。图3：Gen-COMPAS对RBP结合伴随折叠过程的研究图3A：RBP-核糖未结合态和结合态的代表性结构、过渡态以及转变路径标注三个集合变量：$d$（配体距离）、hinge（铰链角）、twist（扭转角）图3B：Committor和committor一致性路径揭示两种不同的结合-折叠机制颜色表示committor值图3C：Gen-COMPAS获得的自由能景观左图：$d$ vs hinge 右图：$d$ vs twist 清晰显示结合伴随折叠机制双路径机制 Gen-COMPAS重构了RBP的完整结合伴随折叠路径，捕获了从无序开放态、经部分折叠中间态、到最终核糖结合闭合态的转变，揭示了配体结合与蛋白质折叠的协同相互作用：扭转角重排：两条路径类似，表明运动保守铰链弯曲重排：路径分化路径1：分步诱导契合机制（配体结合先于蛋白闭合）路径2：同步结合与折叠定量热力学与动力学统一 Committor函数直接估计识别了TSE，此时核糖正在与RBP相互作用，但蛋白尚未完全闭合。沿配体位置和域间角度的回溯定义CVs投影的自由能景观，显示出明显的开放和闭合能量盆，由与预期门控运动一致的能垒分隔。这些分析将热力学和动力学统一为结合伴随折叠过程的连贯机理图谱。通过原子水平分辨转变路径并定量其能量学，Gen-COMPAS提供了解剖复杂耦合折叠-结合事件的通用策略，对其他PBPs或本征无序蛋白具有广泛相关性。案例3：线粒体ADP/ATP载体（AAC）的复杂转运机制研究背景 AAC是一种必需的线粒体转运蛋白，通过严格的1:1反转运机制交换胞质$\ce{ADP^3-}$和基质$\ce{ATP^4-}$，维持细胞能量平衡，为生物合成、信号转导和肌肉收缩等过程提供燃料。由于线粒体内膜对核苷酸不可透过，AAC是$\ce{ADP^3-}$的唯一入口，使其功能对氧化磷酸化不可或缺。 AAC通过交替通路机制运作，在胞质开放态（C-state，结合$\ce{ADP^3-}$）和基质开放态（M-state，释放$\ce{ADP^3-}$并结合ATP导出）之间循环。虽然晶体学研究在抑制剂存在下捕获了这些末端态，但并未解释AAC如何在转变过程中防止不受控的核苷酸泄漏。生化和计算研究因此提出了一个瞬态闭合态（O-state），其中$\ce{ADP^3-}$被完全包裹在中央腔内，与膜两侧隔绝。这一状态充当保障机制以确保严格耦合的交换，但直接证据一直难以捕获——常规MD难以捕获这一短寿命中间态，实验数据也大多是间接的。图4：Gen-COMPAS对线粒体ATP/ADP载体（AAC）的研究图4A：holo-AAC（$\ce{ADP^3-}$结合态）的三个亚稳态、过渡态和转变路径从C-state → O-state → M-state的路径 $\ce{ADP^3-}$从O-state到M-state的轴向运动三维CV空间中的构象转变路径和自由能景观能量盆图4B：AAC在膜中的holo-state以及描述构象转变的集合变量 $d_1$：胞质侧门控残基对距离之和 $d_2$：基质侧门控残基对距离之和 $d_3$：$\ce{ADP^3-}$的N6原子到胞质侧门控残基质心的距离图4C：连接三个状态的committor和committor一致性路径图4D：投影到二维的自由能景观（holo-AAC）图4E：apo-AAC的两个亚稳态及其投影到 $d_1$ 和 $d_2$ 的自由能景观明确证实闭合中间态的存在 Gen-COMPAS克服了传统方法的局限，明确展示了$\ce{ADP^3-}$转运过程中闭合中间态的存在。模拟显示转变通过明确定义的 $\text{C} \to \text{O} \to \text{M}$ 路径进行： $\ce{ADP^3-}$首先在胞质开放态中牢固结合通过跨膜螺旋的重排被困在闭合中间态当AAC采用基质开放构象时最终释放到基质中这一路径确认O-state是$\ce{ADP^3-}$导入基质的必经步骤，而非偶然构象。三维集合变量与热力学分析自由能景观投影到三个事后定义的CVs上： $d_1 = \sum (\text{CE-ASP231/CD-LYS32, CZ-ARG137/CE-GLU29, CZ-ARG234/CD-ASP134})$ $d_2 = \sum (\text{CE-LYS95/CD-ASP195, CE-LYS198/CD-ASP291, CE-LYS294/CD-ASP92})$ $d_3 = \text{distance}(\ce{ADP^3-}\ \text{N6}, \text{COM of}\ d_1\ \text{residues})$ 这三个CVs捕获了此转变的关键热力学特征。观察到对应C、O、M态的明显极小值，能垒与AAC预期的螺旋门控运动一致。O-state显现为自由能盆，证明其热力学上足够稳定以充当真正的中间态。 Committor分析的动力学意义 Committor分析进一步确立了O-state的动力学作用：一旦AAC转变到闭合态，向基质开放构象前进的概率占主导，确认这一中间态是向内转运过程的决定性检查点。配体对转运路径的关键作用为进一步探究配体结合与无配体条件下的机理差异，作者对AAC apo-state进行了Gen-COMPAS研究。与holo-state的相对较低能垒（C → O约2.5 kcal/mol，O → M约2 kcal/mol）形成鲜明对比，apo-state中O-state消失，C-M之间出现高达约10 kcal/mol的能垒。这一结果确认apo-state转变在热力学上强烈不利，与之前研究一致，突显了底物在稳定转运兼容路径中的关键作用。生理与疾病意义这些发现不仅阐明了AAC功能的分子机制，还将转运蛋白动力学与线粒体生理和疾病联系起来。由于AAC是生物能量学的核心，$\ce{ADP}$转运功能障碍可能损害ATP生产，导致从线粒体肌病到神经退行性疾病的各种病症。通过确认和定量闭合态，Gen-COMPAS提供了理解突变或抑制剂如何破坏$\ce{ADP^3-}$转运的机理基础，为健康和病理学中线粒体功能的合理调控铺平道路。 Q&A Q1: Gen-COMPAS如何处理大型复杂体系的计算成本？ A1: Gen-COMPAS的计算效率来自三个方面：聚焦采样：通过committor引导，采样集中在过渡态区域（separatrix附近），避免浪费资源探索不相关的构象空间短时模拟：初始化仅需1-2 ns的无偏MD，shooting模拟也在纳秒级，远短于传统方法的微秒-毫秒需求 GPU原生优化：扩散模型和神经网络committor预测器都原生支持GPU加速，可高效处理大型体系（如AAC的膜蛋白体系包含数万原子） Q2: 为什么不能直接使用纯生成模型（如Boltzmann generators）来替代Gen-COMPAS？ A2: 纯生成模型存在以下局限：训练数据需求巨大：通常需要数百毫秒的MD轨迹或大规模实验数据，对罕见事件来说几乎不可能收集物理严格性问题：生成的构象来自学习的潜空间而非真实哈密顿量，可能引入mode imbalance、训练集几何偏好等artifacts 热力学不准确：自由能景观不能与直接MD严格比较，定量预测可靠性有限缺乏动力学信息：无法提供committor等动力学可观测量 Gen-COMPAS通过将生成模型与物理严格的无偏MD结合，克服了这些限制，确保所有结果源自真实分子力学 Q3: Committor函数 $q$ 为什么是最优反应坐标？ A3: 从理论角度，committor $q(\mathbf{x})$ 定义为从构象 $\mathbf{x}$ 出发、在到达反应物态A之前先到达产物态B的概率。它具有以下独特性质：动力学最优性：满足后向Kolmogorov方程，是唯一完全表征转变动力学的单变量定义过渡态：$q = 0.5$ 的超曲面（separatrix）精确定义了过渡态集合，无任意性无需预判：不需要预先知道哪些自由度是慢变量，自动从全维构象空间中提取关键信息路径独立：committor一致性路径（CCS）追踪动力学上有意义的路径，通常不同于最小自由能路径（MFEP） Q4: Gen-COMPAS能否应用于化学反应或材料科学中的相变？ A4: 原则上可以。Gen-COMPAS的核心思想——通过生成模型探索中间态+committor引导识别过渡态——是通用的。只要能定义清晰的两个亚稳态（反应物/产物，或两种相），并能进行短时MD模拟，就可以应用。但需要注意：化学反应可能需要ab initio MD或机器学习力场以准确描述键的断裂/形成相变可能涉及更复杂的多态共存，可能需要扩展到多于两个亚稳态的情况当前实现针对生物分子优化，应用于其他领域可能需要调整生成模型架构 Q5: 如何验证Gen-COMPAS结果的准确性？ A5: 文章采用了多重验证策略：与标准基准对比：Trp-cage结果与DESRES的208微秒全原子模拟定量一致与已知机制一致性：RBP的双路径机制、AAC的O-state中间态均与已有实验和计算证据吻合内部一致性检查：Committor预测通过shooting模拟验证（观察从 $q \approx 0.5$ 构象出发的轨迹确实以约50%概率到达A或B）物理合理性：所有中间态构象通过TMD从真实亚稳态出发可达，确保路径的物理可行性事后CV投影：将结果投影到已知的物理相关CVs上，检查能垒、极小值位置是否合理关键结论与批判性总结主要贡献方法学突破：首次将扩散生成模型与committor理论有机结合，形成完全无CV依赖的罕见事件采样框架效率革命：将罕见事件采样所需时间从微秒-毫秒级降至纳秒级，提升2-3个数量级机理洞见：揭示了Trp-cage的双折叠路径、RBP的双机制结合伴随折叠、AAC的必经闭合中间态等新的生物学机制通用性：适用于蛋白折叠、配体结合、膜转运等多种复杂过程，克服了纯生成模型仅限蛋白质的局限潜在影响药物发现：快速预测配体结合路径和能垒，指导先导化合物优化蛋白质设计：理解折叠路径以设计快速折叠或特定中间态的蛋白转运蛋白研究：解析膜蛋白转运机制，为疾病相关突变和抑制剂设计提供结构基础方法学范式转变：可能改变分子模拟领域对暴力MD和传统增强采样的依赖局限性两态假设：当前框架主要针对两个亚稳态之间的转变，多态体系（如多个折叠中间态、多步骤反应）的扩展尚未充分探索力场依赖：结果准确性仍然受限于底层力场（或机器学习力场）的质量定量精度：作者坦诚指出，生成的自由能景观应作为快速探索工具，对于需要最高定量精度的应用，应以此为起点再用传统增强采样或转变路径采样精修迭代收敛判据：文中未详细讨论如何判断迭代何时收敛，可能需要经验或额外的收敛诊断未来研究方向扩展到多个亚稳态的复杂网络（超越简单两态跃迁）结合更高精度的ab initio MD或神经网络势能面开发自动化的收敛诊断和不确定性量化应用于更大尺度的生物复合物（如病毒衣壳组装、染色质重塑）与实验技术（如单分子FRET、低温电镜）结合验证预测批判性思考正如作者在Discussion中提出的provocative问题：“我们是否正在见证微秒至毫秒级暴力模拟和传统增强采样策略终结的开端？”虽然Gen-COMPAS并非完全取代这些方法，但它确实展示了罕见事件动力学的本质可以在不付出极端计算代价的情况下揭示。然而，我们也需要清醒地认识到，Gen-COMPAS的成功建立在精心选择的基准体系上（Trp-cage、RBP、AAC都是研究充分的体系）。对于全新的、机制完全未知的体系，如何确保生成模型不会产生物理上虽然合理但动力学上不相关的中间态，仍是一个开放性问题。此外，committor的学习本身也需要足够的过渡态附近的采样，如何在初始迭代中高效bootstrap这一过程，可能是方法鲁棒性的关键。尽管如此，Gen-COMPAS无疑代表了分子模拟领域的一次重要进步，将机器学习的生成能力与物理模拟的严格性完美结合，为我们理解生命分子的动态过程打开了新的窗口。

Molecular Dynamics · 2025-11-17

Martini 3碳水化合物力场：验证方法与应用案例（附录）

本文是《Martini 3粗粒化力场下的碳水化合物建模》的附录，包含详细的验证方法和应用案例。验证方法 Martini 3碳水化合物的验证基于三个主要物理化学性质：溶剂可及表面积 Martini 2中心-几何（COG）未缩放映射导致体积严重低估（约8%偏差）解决方案: 均匀缩放15%的COG键长结果: 缩放前: 平均偏差 ~8% 缩放后：偏差 <5%（可接受） Connolly表面对齐显著改善图2：分子形状优化 - SASA验证 a) 溶剂可及表面积（SASA）对比：全原子模拟 vs Martini 3（未缩放键长）vs Martini 3（15%缩放键长）。缩放后的SASA与全原子结果高度一致。 b-e) 葡萄糖分子的Connolly表面可视化对比，展示15%键长缩放前后的分子体积改善。缩放后的粗粒化表面（绿色）与全原子表面（灰色）高度重合，解决了Martini 2中系统性低估分子体积（~8%偏差）的问题。自由能转移方法：计算正辛醇-水相间的转移自由能 ΔG(Oct→W) 结果（所有单糖）：平均绝对误差（MAE） = 1.5 kJ/mol（优秀）与小分子参考值相当（2.0 kJ/mol） NAG误差 = 1.27 kJ/mol GlcA误差 = 0.44 kJ/mol 图3：转移自由能验证 10种单糖的辛醇-水转移自由能对比：蓝色条：实验值（或高精度计算值）橙色条：Martini 3预测值 Martini 3在所有单糖上的预测均与参考值高度吻合，平均绝对误差仅1.5 kJ/mol，达到了与小分子Martini参数相当的精度水平。这验证了：珠子类型选择的准确性非键相互作用参数的合理性虚拟位点（TC4）的正确引入渗透压渗透压过低表明有过度的聚集倾向（”粘性效应”） Martini 2的问题：严重高估聚集倾向，导致不真实的自聚集。Martini 3的改进：关键改进：采用新的S和T珠子类型（相互作用更弱），显著降低了糖类之间的过度吸引 0-1.5 molal浓度：与实验数据优异吻合高浓度（>1.5 molal）：仍有轻微低估，但比Martini 2大幅改善 molal浓度单位说明：molal = mol溶质 / kg溶剂（与molar不同，molar = mol/L溶液）图5：渗透压验证 - Martini 2 vs Martini 3 10种碳水化合物的渗透压对比。蓝色曲线：实验测量值；橙色曲线：Martini 3预测值；红色曲线：Martini 2预测值。图中清晰展示了Martini 3在0-1.5 molal浓度范围内与实验数据的优异吻合，而Martini 2严重低估渗透压（表明过度聚集的”粘性效应”）。这是Martini 3相对于Martini 2最重要的改进之一，解决了碳水化合物力场长期存在的聚集问题。应用案例通过一系列实际应用，Martini 3碳水化合物力场展示了其在描述复杂生物体系中的强大能力。葡聚糖（Dextran）的溶液性质体系：100 kDa葡聚糖（α-1,6主链）在不同浓度溶液中的性质验证指标：溶液黏度回转半径（Radius of Gyration, Rg）扩散系数形状因子（Shape Factor）结果：Martini 3准确再现实验观测，包括浓度依赖性图6：葡聚糖溶液性质多维度验证 a) 回转半径Rg随浓度的变化 b) 扩散系数随浓度的变化 c) 形状因子随浓度的变化 d) 溶液黏度随浓度的变化所有四个性质的模拟结果（橙色点）与实验数据（蓝色点）均高度一致，验证了Martini 3在描述多糖溶液性质方面的准确性。特别是黏度的正确预测，表明力场能够捕捉到聚合物链间相互作用和构象动力学的本质特征。蛋白质-糖脂识别体系：外周膜蛋白LecA（来自铜绿假单胞菌）与糖脂GM1的特异性结合验证：结合位点：与实验晶体结构一致特异性：LecA选择性识别GM1（含半乳糖）而非其他糖脂结合模式：糖链伸入蛋白结合口袋生物学意义： LecA是铜绿假单胞菌的毒力因子通过识别宿主细胞表面糖脂介导细菌黏附这一案例验证了Martini 3在蛋白质-糖相互作用研究中的适用性图8：外周膜蛋白与糖脂的特异性结合 a) 霍乱毒素B亚基（CTxB）蛋白结构渲染图（PDB 3CHB） b) CTxB周围GM3糖脂的2D脂质密度图，显示糖脂富集在蛋白中心及外围的特定结合位点 c) CTxB周围膜的2D曲率图，展示蛋白结合引起的膜弯曲 d) 志贺毒素B亚基（STxB）蛋白结构渲染图（PDB 2C5C） e) STxB周围Gb3糖脂的2D脂质密度图，标注了3个等效结合位点（1-3） f) STxB周围膜的2D曲率图 g-h) （如果有）膜曲率的侧视图或其他补充信息关键发现： CTxB：主要结合位点位于蛋白中心，外围有较弱的结合位点 STxB：清晰显示3个等效的Gb3结合位点，Martini 3能够自发识别这些位点膜曲率：两种毒素蛋白都能诱导膜弯曲，这是内吞作用的关键步骤 STxB诱导的曲率：CG模拟值 = 0.0260 ± 0.0001 nm⁻¹ 全原子模拟值 = 0.034 ± 0.004 nm⁻¹（数量级一致）重大突破：Martini 3能够自发识别STxB的3个Gb3结合位点，而Martini 2由于过度聚集问题无法实现。这展示了Martini 3在研究蛋白质-碳水化合物识别方面的重大进步，对理解病原体-宿主细胞相互作用具有重要生物学意义。其他成功应用糖蛋白折叠与糖基化：成功模拟糖链对蛋白质折叠稳定性的影响细菌外膜脂多糖：描述LPS在革兰氏阴性菌外膜中的组装和屏障功能糖脂筏（Lipid Rafts）：研究糖脂在膜微区（rafts）形成中的作用多糖材料：纤维素、几丁质等多糖材料的力学性质模拟关键结论与批判性总结 Martini 2与3对比总结方面 Martini 2 Martini 3 珠子类型 3个R珠（单糖），6个R珠（二糖） 3个S珠（所有单糖），混合S和T（二糖）粘性效应严重的过度聚集基本解决，仅在高浓度保留痕迹糖苷键通用参数（1,6键有问题）分离α和β，处理1,1到1,6所有链接体积匹配系统性低估（~8%） 15%缩放后 <5%误差虚拟位点未系统使用 TC4中心位点用于π堆积验证数据仅3种糖类的渗透压 10种单糖+多糖完整验证自由能误差更大平均1.5 kJ/mol（最优）本文建立了一套系统化、可迁移的碳水化合物粗粒化建模方案，成功解决了Martini 2力场长期存在的过度聚集问题：规范映射策略：提出了将任意复杂碳水化合物分解为有限片段的标准化映射方案，确保了不同糖类间的参数可迁移性准确的物理化学性质：辛醇-水转移自由能平均绝对误差仅1.5 kJ/mol，与实验高度吻合渗透压在生理相关浓度范围（<1.5 molal）内与实验数据优异一致通过15%键长缩放准确再现分子体积和SASA（误差<5%）构象准确性提升：区分α和β糖苷键，引入TC4虚拟位点增强芳香相互作用，显著改善了碳水化合物构象描述广泛的适用性验证：正确预测葡聚糖（水溶）与纤维素（水不溶）的溶解性差异成功模拟糖脂在膜中的组织和蛋白质-糖脂特异性识别准确描述水性两相体系中的相分离行为局限性与改进方向尽管取得了显著进步，本模型仍存在以下局限：高浓度聚集问题：在高浓度范围（>1.5 molal）下，部分单糖（核糖、蔗糖、岩藻糖）仍表现出轻微的过度自相互作用建议：涉及高浓度碳水化合物溶液的模拟需要仔细验证芳香相互作用不足：尽管引入了TC4虚拟位点，与芳香基团的相互作用强度仍低于全原子模型对于强制性堆积构象（如某些蛋白质结合口袋）可能低估结合亲和力改进方向：需要进一步优化蛋白质模型或Martini 3相互作用矩阵模型适用范围：当前参数主要在寡糖和中等长度聚合物（<50个重复单元）上验证极长链（>100单元）的灵活性和动力学行为需要额外检验粗粒化固有限制：自由度的减少不可避免地损失了部分原子级细节某些依赖精细原子相互作用的性质（如氢键网络、手性识别）可能无法完全准确描述未来展望扩展参数库：将参数化方案推广到更多类型的碳水化合物（如氨基糖、脱氧糖、修饰糖类）多尺度模拟集成：结合全原子和粗粒化模型，在关键区域使用精细描述蛋白质-碳水化合物界面优化：改进蛋白质力场与碳水化合物力场的兼容性，提高蛋白质-糖识别的准确性动力学性质验证：扩展验证范围至扩散系数、粘度等动力学性质总体评价 Martini 3碳水化合物力场代表了粗粒化生物分子模拟领域的重要进步。通过系统的参数化策略和全面的验证，本模型在保持计算效率的同时，显著提升了对碳水化合物体系的描述准确性。虽然仍存在改进空间，但已为研究复杂的糖生物学过程（如糖蛋白折叠、多糖自组装、糖脂膜域形成）提供了可靠且高效的工具。本研究的方法学贡献在于建立了一套标准化、可复制的参数化流程，为未来开发其他类型生物分子的粗粒化模型提供了范例。相关文章主文档：Martini 3粗粒化力场下的碳水化合物建模

Molecular Dynamics · 2025-11-16

Martini 3粗粒化力场下的碳水化合物建模

Martini 3粗粒化力场下的碳水化合物建模本文信息标题: Martini 3 Coarse-Grained Force Field for Carbohydrates 作者: Fabian Grünewald, Mats H. Punt, Elizabeth E. Jefferys, Petteri A. Vainikka, Valtteri Virtanen, Melanie König, Weria Pezeshkian, Maarit Karonen, Mark S. P. Sansom, Paulo C. T. Souza†, Siewert J. Marrink† (*共同第一作者，†通讯作者) 发表时间: 2022年单位: University of Groningen (荷兰格罗宁根大学) University of Oxford (英国牛津大学) University of Turku (芬兰图尔库大学) University of Lyon (法国里昂大学) University of Copenhagen (丹麦哥本哈根大学) 引用格式: Grünewald, F., Punt, M. H., Jefferys, E. E., Vainikka, P. A., Virtanen, V., König, M., Pezeshkian, W., Karonen, M., Sansom, M. S. P., Souza, P. C. T., & Marrink, S. J. (2022). Martini 3 Coarse-Grained Force Field for Carbohydrates. Journal of Chemical Theory and Computation. https://doi.org/10.1021/acs.jctc.2c00757 GitHub代码: https://github.com/marrink-lab/martini-forcefields 其他参考资源 Punt, M. (2021). “Sweet” Martini 3 – Guidelines for a Transferable Sugar Model in Martini 3. Master’s Thesis, University of Groningen. Martini官方文档：https://www.cgmartini.nl/ 概述 Martini 3是Martini力场的第三代版本，对碳水化合物的参数化进行了完全的重新优化。相比Martini 2存在的粘性效应（overaggregation），Martini 3通过改进相互作用平衡，能够更准确地描述碳水化合物体系，特别是复杂的多糖体系。透明质酸（Hyaluronic Acid，HA，又称玻尿酸）是由N-乙酰葡萄糖胺（NAG）和葡萄糖醛酸（GlcA）通过β-1,3-glycosidic链接形成的线性多糖，是重要的生物大分子。参数化策略总体设计原则 Martini 3碳水化合物建模遵循三条核心映射规则：最大化二醇基团：在单个珠子中包含尽可能多的二醇单元，从而最大化4:1映射（四个重原子映射到一个珠子）保持官能团完整性：将官能团尽可能保持在一起，特别是当存在取代基时规范化命名方向：从异头体碳（C1）开始，逆时针进行分组，确保不同糖类的等效片段生成规范命名珠子类型（Bead Types）珠子类型大小重原子映射比例应用 R珠子常规 (σ=0.47 nm) 4:1 线性、无分支结构 S珠子小 (σ=0.41 nm) 3:1或4:1 环结构、分支结构（推荐用于单糖） T珠子极小 (σ=0.34 nm) 2:1 芳香环堆积、紧凑结构 TC4珠子虚拟位点无质量放置在单糖环中心，增强芳香相互作用参数文件说明官方提供的 martini_v3.0.0_sugars_v2.itp 参数文件包含：单糖（13种）：只有 [constraints] 参数，不一定有angles/dihedrals（有侧链才有？）包括：GLC, MAN, GAL, FRUF, LFUC, LRHA, RIBF, XYL, INO, GLA, GYN, NMC 二糖（3种）：完整的bonds, constraints, angles, dihedrals参数 LAC（乳糖）, SUCR（蔗糖）, TREH（海藻糖）多糖/寡糖：未提供现成参数，需要用户按照下述参数化流程自行开发参数化方法为获得键合参数和分子体积，使用三种流行的原子力场：糖类使用的力场 D-葡萄糖, D-甘露糖 GLYCAM06h D-核糖, D-核糖呋喃糖, D-木糖 CHARMM36 D-果糖呋喃糖 CHARMM36 N-乙酰葡萄糖胺（NAG） GLYCAM06h 葡萄糖醛酸（GlcA） CHARMM36 肌醇 GROMOS54a7 关键设置: 所有模拟在水中，周期边界条件充分采样以获得准确的键合分布从原子级轨迹映射到中心-几何（COG）位置提取珠子坐标用简谐势拟合原子级分布单糖建模单糖映射方案在Martini 3中，所有单糖都由三个珠子建模，分别命名为A、B、C： A珠子：包含异头体碳（anomeric carbon, 通常是C1），异头体氧（O1，连接到C1的羟基氧）属于A珠子 B珠子：包含第二个二醇单元 C珠子：包含醚氧原子（ring ether oxygen，通常是O5）图1：单糖参数化策略 a) 系统映射方案示例，以葡萄糖醛酸为例，展示从原子级到粗粒化的映射过程及从异头体碳C1逆时针分组的规则 b) 单糖中所有片段的珠子类型分配，包括各功能团对应的Martini 3珠子类型及其ΔG(Oct→W)值 c) 键合相互作用设计原则，单糖表现为刚性三角形，所有内部环约束统一缩放15%以改善SASA N-乙酰葡萄糖胺（N-Acetylglucosamine，GlcNAc或NAG）化学结构：$\ce{C8H15NO6}$ 映射原理：原子级结构：C1-O1-C2($\ce{NHAC}$)-C3($\ce{OH}$)-C4($\ce{OH}$)-C5-O5-C6($\ce{CH2OH}$)，其中O1为异头体氧，O5为环氧（ether oxygen）粗粒化映射（四个珠子+虚拟位点）：珠子包含原子说明 A珠 C1-O1-C2 包含异头体碳C1和异头体氧O1 B珠 C3-C4 二醇单元 C珠 C5-O5-C6 包含环氧O5和羟甲基 D珠 N-乙酰基($\ce{NHAC}$) N-乙酰官能团，连接到A珠（C2位置） VS 虚拟位点 TC4类型，放置在环中心珠子类型选择依据：珠子类型的选择基于匹配全原子的分子体积和辛醇-水转移自由能。下表总结了各碎片的珠子类型分配：珠子碎片类型 Martini珠子类型选择依据 A 异头体 SN6 异头体碳+O1，极性碎片 B 二醇 SP4r 含两个羟基的二醇单元 C 半缩醛+醚 SP1r 中等极性，环氧和羟甲基组合 D N-乙酰基 SP3d 酰胺官能团，极性 VS 虚拟位点 TC4 疏水珠子，无质量，增强π堆积相互作用葡萄糖醛酸（D-Glucuronic Acid，GlcA或GLA）化学结构：$\ce{C6H10O7}$（末端葡萄糖变为羧酸）映射原理：与葡萄糖类似，但C6($\ce{-CH2OH}$)被替换为羧基($\ce{-COOH}$) 原子级结构：C1-O1-C2($\ce{OH}$)-C3($\ce{OH}$)-C4($\ce{OH}$)-C5-O5-C6($\ce{COOH}$)，其中O1为异头体氧，O5为环氧（ether oxygen）粗粒化映射（四个珠子+虚拟位点）：珠子包含原子说明 A珠 C1-O1-C2 包含异头体碳C1和异头体氧O1 B珠 C3-C4 二醇单元 C珠 C5-O5 包含环氧O5 D珠 C6($\ce{COOH}$) 羧酸官能团，生理pH下去质子化 VS 虚拟位点 TC4类型，放置在环中心珠子类型选择依据：珠子碎片类型 Martini珠子类型选择依据 A 异头体 SP4r 异头体碳+O1，极性碎片 B 二醇 SP4r 标准二醇单元，含两个羟基 C 环氧醚 TN4ar 环氧和邻近碳 D 羧酸根 SQ5n（带电-1）生理pH下去质子化，强极性 VS 虚拟位点 TC4 增强π堆积相互作用实验分配系数验证（Table S2）：单糖实验Log P Martini 3预测（kJ/mol）误差（kJ/mol）精度评价 NAG -3.03 ± 0.34 -16.02 ± 0.33 1.27 优秀 GLA -3.26 ± 0.11 -18.17 ± 0.31 0.44 最优两种单糖的辛醇-水分配系数预测均达到高精度，验证了珠子类型选择和非键参数的准确性。内部环约束的15%缩放见正文Figure 1c，2（附录）。为了准确再现碳水化合物的分子体积和溶剂可及表面积（SASA），Martini 3对单糖环内的所有键长进行了统一的15%放大处理：环内键长：A-B、A-C、B-C（形成糖环的三个珠子之间的键）统一放大15% 糖苷键：连接两个单糖单元的键（如NAG的A珠到GlcA的B珠）不缩放，保持原始距离物理意义：直接从几何中心（COG）映射会低估分子体积约8%，15%的键长放大可使CG模型的Connolly表面与全原子参考高度一致适用性：这个缩放因子对所有单糖都适用，保证了模型的可迁移性单糖内部键合键合类型：使用约束（constraints）而非简谐键，因为单糖在CG层级表现为刚性三角形无angles/dihedrals：单糖环内三个珠子（A-B-C）之间不需要角度或二面角参数原始力场文件 [ moleculetype ] ; molname nrexcl GLA 1 [ atoms ] ; nr type resnr residue atom cgnr charge mass 1 SP4r 1 GLA A 1 0 54 2 SP4r 1 GLA B 2 0 54 3 TN4ar 1 GLA C 3 0 36 ; 4 SP3 1 GLA D 4 0 54 4 SQ5n 1 GLA D 4 -1.0 54 ;deprotonated at physiological pH 5 TC4 1 GLA VS 5 0 0 [constraints] ; i j funct length 1 2 1 0.376 ;15% COG scaled 1 3 1 0.335 2 3 1 0.311 3 4 1 0.222 ;unscaled, constraint because Fk > 80000 [angles] ; i j k funct angle fk 1 3 4 10 180 290 [dihedrals] ; i j k l funct angle fc 4 1 2 3 2 55 140 [ exclusions ] 5 1 2 3 4 4 2 [ virtual_sitesn ] 5 1 1 2 3 [ moleculetype ] ; molname nrexcl GYN 1 [ atoms ] ; nr type resnr residue atom cgnr charge mass 1 SN6 1 GYN A 1 0 54 2 SP4r 1 GYN B 2 0 54 3 SP1r 1 GYN C 3 0 54 4 SP3d 1 GYN D 4 0 54 5 TC4 1 GYN VS 5 0 0 [bonds] ; i j funct length fk 1 4 1 0.339 4700 ;unscaled [constraints] ; i j funct length 1 2 1 0.392 ;15% COG scaled 1 3 1 0.427 2 3 1 0.397 [ angles ] ; i j k funct angle fk 3 1 4 10 147 100 [dihedrals] ; i j k l funct angle fc 4 3 2 1 2 0 160 [ exclusions ] 5 1 2 3 4 4 2 [ virtual_sitesn ] 5 1 1 2 3 多糖建模图4：寡糖和多糖的参数化策略（详细讲解见下） a) 复杂碳水化合物的系统化映射策略 b) 两个连接的单糖片段之间引入的角度和二面角 c) 三个连续单糖片段之间引入的二面角 d) 糖苷键形成时新产生片段的珠子分配第一组（1-1、1-2、1-3、1-4链接）：使用SP1r珠子这个珠子类型直接来自单糖中的半缩醛片段已通过海藻糖和蔗糖的转移自由能验证（误差<3 kJ/mol）第二组（1-5、1-6链接）：使用SN6r珠子与半缩醛片段类似，但一个OH被醚键取代 SN6r的自相互作用比SP1r弱一级，反映了化学结构变化特殊情况（N-乙酰神经氨酸的1-4链接）：将羧酸与剩余碳片段组合，避免产生键长过短的2:1映射片段使用标准羧基珠子类型糖苷键参数化透明质酸（HA）的组成：由NAG（GlcNAc）和GlcA通过β-1,3糖苷键交替连接而成。糖苷键的分类 Martini 3将糖苷键分为六组，根据α/β异构体和链接碳位置：糖苷键类型例子映射方向接收方珠子类型 Class 1 α/β-1,1 & 1,2 异头体相连 T珠子 Class 2 α/β-1,3 & 1,4 最常见的β-1,4 T珠子 Class 3 α/β-1,5 & 1,6 包括6-脱氧 SN6r珠子（减弱相互作用）透明质酸中的β-1,3链接属于Class 2：这是该力场中最常见的链接类型之一。如何确定“接收单糖单元”？在糖苷键连接中，需要明确哪个单糖是“供体”（donor），哪个是“接收者”（acceptor）：规则：采用CHARMM-GUI约定，连接原子归属于CG层级中珠子编号更高的单糖单元例子：乳糖（α-1,4连接的葡萄糖-半乳糖）原子级连接：葡萄糖的C1连接到半乳糖的C4 CG级连接：葡萄糖的A珠连接到半乳糖的B珠糖苷醚氧原子归属于B珠（即半乳糖一侧，珠子编号更高的单元） β-1,3糖苷键的具体连接方式对于透明质酸的NAG-GlcA重复单元：原子级：NAG的C1（异头体碳）连接到GlcA的C3 CG级：NAG的A珠连接到GlcA的B珠糖苷醚氧归属：包含在GlcA的B珠中（接收方单糖）体积损失补偿糖苷缩合反应使总重原子数减少1（损失一个氧原子）：$\ce{C6H12O6 + C6H10O7 - H2O -> C12H20O11}$ Martini 3的解决方案：供体单糖（提供异头体碳C1的一侧）：保持原有珠子类型接收单糖（通过其他碳如C3/C4接收连接的一侧）：将接收糖苷键的珠子从S珠改为T珠（更小），以补偿重原子损失具体到透明质酸： NAG单元（供体）：A(SP1r) - B(SP1r) - C(SP1r) GlcA单元（接收方）：A’(TP1) - B’(SP1r，包含糖苷醚氧) - C’(SQ4) 注意：GlcA的A’珠从SP1r改为TP1（T珠），补偿糖苷缩合的重原子损失键合相互作用多糖键合参数糖苷键键长：从全原子参考映射获得，α和β异构体的键长明显不同，需分开处理 Angles（键角）：定义所有跨越两个单糖单元之间糖苷键的角度例如：A-糖苷键-B’，B-糖苷键-A’，A-糖苷键-C’等具体数值需从全原子MD模拟的分布拟合调和势获得 Dihedrals（二面角）：单糖内部：使用improper dihedral（funct=2，调和势）维持环平面性例如：GLA的4-1-2-3，用于保持糖环的平面构象主二面角（两个单糖连接）：使用proper dihedral（funct=1，周期性势函数）控制绕糖苷键的旋转（见Figure 4b）对于每个糖苷键，定义一个主二面角来控制绕该键的旋转二面角的具体原子选择取决于糖苷键连接类型（不同连接方式有不同的原子组合）例如：LAC (β-1,4链接，糖苷键为B-A’): 主二面角为A-B-A’-B’ 例如：SUCR/TREH (α-1,1链接，糖苷键为A-A’): 主二面角为B-A-A’-C’ 长程二面角（三个或更多单糖连接）：当连接超过两个单糖单元时，引入跨越三个连续单糖单元（n, n+1, n+2）的长程二面角，定义n和n+2残基相对于n+1残基平面的取向（见Figure 4c）对于含有N个单糖的多糖链，需要定义N-2个这样的长程二面角（每个连续三联体一个）例如：透明质酸（HA）的NAG₁-GlcA₂-NAG₃片段，长程二面角为B₁-A₂-B₂-A₃（从第1个残基选B珠，从第2个残基选A和B珠定义平面，从第3个残基选A珠），B₂-A₃-B₃-A₄，…… 这类二面角对多糖刚度至关重要，尤其是在较长的碳水化合物链中所有二面角参数通过匹配全原子参考模拟的构象分布获得受限弯曲势：对于被二面角势覆盖的角度，使用Bulacu等人的受限弯曲势，防止角度变为共线导致数值不稳定特殊处理葡聚糖（dextran）使用3-bonded neighbor exclusions以改善稳定性其他模型仅排除1-bonded neighbors（Martini脂质标准）虚拟位点的包含显著影响聚集行为和化学性质建模流程总览 mindmap root(碳水化合物建模) **单糖建模** 映射策略 **从C1逆时针分组** 最大化二醇单元保持官能团完整珠子分配基本3珠子：A-B-C A珠：异头体碳+O1 B珠：二醇单元 C珠：环氧O5 侧链D珠：NAG/GLA N-乙酰基：SP3d 羧基：SQ5n带电荷 **虚拟位点TC4**：π堆积键合参数 Constraints：环内键 **15%键长缩放** Improper dihedral：平面性 **多糖建模** 糖苷键规则 **糖苷醚氧归属珠子编号更高单元** **接收方S珠改为T珠**：补偿重原子损失 α/β键长不同需分开处理糖苷键分类 Class 1：α/β-1,1 & 1,2 Class 2：α/β-1,3 & 1,4 Class 3：α/β-1,5 & 1,6 键合参数糖苷键：不缩放 Angles：跨糖苷键角度主dihedral：单个糖苷键旋转 **长程dihedral：N-2个**，跨3残基参数化流程 1.全原子MD模拟 2.映射到CG珠子 3.拟合分布获参数 **验证与应用** 验证指标 SASA：小于5%误差转移自由能：1.5 kJ/mol **渗透压：解决粘性效应** 应用案例葡聚糖溶液性质蛋白质-糖脂识别糖蛋白/LPS体系验证方法与应用案例 Martini 3碳水化合物力场经过验证，在多个物理化学性质和实际应用中表现优异。详细内容请参见：附录：验证方法与应用案例验证指标概览力场验证基于三个核心物理化学性质：溶剂可及表面积（SASA） 15%键长缩放后，偏差 <5%（Martini 2为~8%） Connolly表面与全原子高度一致辛醇-水转移自由能平均绝对误差：1.5 kJ/mol 达到小分子Martini参数的精度水平渗透压 0-1.5 molal浓度：与实验优异吻合解决了Martini 2的”粘性效应”问题应用案例概览葡聚糖溶液性质：准确预测黏度、回转半径、扩散系数蛋白质-糖脂识别：成功模拟LecA与GM1的特异性结合糖蛋白、LPS、糖脂筏等复杂体系

Molecular Dynamics · 2025-11-16

Polyply：图匹配算法驱动的聚合物模拟参数生成与结构构建

Polyply：图匹配算法驱动的聚合物模拟参数生成与结构构建本文信息标题: Polyply; a python suite for facilitating simulations of macromolecules and nanomaterials 作者: Fabian Grünewald, Riccardo Alessandri, Peter C. Kroon, Luca Monticelli, Paulo C. T. Souza, Siewert J. Marrink 发表时间: 2022年1月单位: University of Groningen (荷兰格罗宁根大学) University of Chicago (美国芝加哥大学) CNRS and University of Lyon (法国里昂大学) 引用格式: Grünewald, F., Alessandri, R., Kroon, P. C., Monticelli, L., Souza, P. C. T., & Marrink, S. J. (2022). Polyply; a python suite for facilitating simulations of macromolecules and nanomaterials. Nature Communications, 13(1), 68. https://doi.org/10.1038/s41467-021-27627-4 GitHub代码: https://github.com/marrink-lab/polyply_1.0 文档: https://polyply.readthedocs.io Polyply官方文档 GitHub代码库 Martini力场官网摘要分子动力学模拟在（纳米）材料理性设计和生物大分子研究中扮演着日益重要的角色。然而，为这些模拟生成输入文件和真实的初始坐标是一个主要瓶颈，特别是对于高通量筛选协议和复杂多组分体系。为解决这一瓶颈，本文提出了Polyply软件套件，它提供：1）一个多尺度图匹配算法，能够快速生成任意复杂聚合物拓扑的参数；2）一个通用的多尺度随机游走协议，能够高效地设置复杂体系，且独立于目标力场或模型分辨率。作者通过创建聚合物熔体、单链及环状单链DNA的真实坐标来评估该方法的质量和性能，并通过设置微相分离嵌段共聚物体系和脂质囊泡内液-液相分离体系展示了该方法的强大功能。核心结论 Polyply基于图转换算法，将残基图（residue graph）映射为高分辨率参数文件，支持任意复杂的聚合物拓扑结构采用多尺度随机游走生成初始坐标，先构建超粗粒化（super CG）模型，再反向转换到目标分辨率力场无关设计，同时支持全原子和粗粒化模型，极大提升了高通量筛选的可行性在聚合物熔体、DNA单链、嵌段共聚物、相分离体系等多个复杂案例中验证了方法的准确性和效率背景分子动力学（MD）模拟已成为补充实验研究的强大工具。近年来，研究趋势从单一聚合物熔体或混合物转向更复杂的多组分体系，包括纯合成材料和生物-合成杂化大分子。这些体系的应用范围广泛，从聚电解质复合凝聚体到下一代聚合物电池，再到抗菌聚合物和可生物降解聚合物。随着材料基因组计划的推进，基于MD的虚拟高通量筛选正成为研究热点。MD高通量筛选相比实验方法成本更低，且能提供实验难以获取的性质信息，使研究者能够更高效地探索组合空间并筛选候选材料。然而，这一前景的实现需要程序能够快速、可靠、一致地构建拓扑和模拟盒子。当前的主要挑战在于：现有工具主要针对蛋白质、脂质膜、DNA等生物分子，对合成聚合物和生物-合成杂化大分子的支持严重不足。虽然存在一些特定解决方案，但它们通常只支持单一力场，仅限于开发者实现的特定（主要是线性）聚合物，且网站实现方案依赖服务器负载并需要人工交互。更复杂体系（如微相分离聚合物、杂化纳米颗粒共混物）的坐标生成往往依赖多尺度自组装或定制脚本。关键科学问题本文旨在解决聚合物和生物大分子MD模拟中的五个核心挑战：参数与坐标生成的通用性：程序需要同时生成坐标和参数，且与分辨率和力场无关。准确的粗粒化模型通常基于全原子聚合物，因此支持两者是高通量模型开发的关键输入文件生成的易用性：需要一个简单的流程，基于体系组成生成输入文件，支持任意复杂的聚合物序列，包括不同分支度和统计分布参数与坐标的组合能力：程序需要能够组合不同分辨率的聚合物输入，例如在相同模拟中混合全原子和粗粒化模型边界条件与几何的灵活性：需要支持三维周期性边界条件、球形、柱状等多种几何形状高通量筛选的性能要求：坐标和参数文件生成必须足够快，以支持高通量协议创新点图转换算法：首次将聚合物参数化问题完全转化为图同构匹配问题，实现了对任意复杂拓扑结构的自动参数生成多尺度随机游走：创新性地采用“超粗粒化→目标分辨率”的反向构建策略，避免了传统方法依赖坐标片段库的局限力场无关框架：通过分离算法核心与力场参数库，实现了对Martini、GROMOS、CHARMM、OPLS等多种力场的统一支持自动化工作流：从残基序列到完整模拟输入的全流程自动化，大幅降低了使用门槛研究内容 Polyply软件架构 Polyply由两个核心模块组成： polyply gen_params：基于图匹配算法的参数文件生成器 polyply gen_coords：基于多尺度随机游走的坐标生成器两个模块共享统一的图表示基础架构，均基于NetworkX和vermouth Python库实现图相关计算。图1：参数文件生成工作流程以聚乙二醇（PEO）接枝甲基丙烯酸酯（MA）为例，展示了三步图转换过程：输入：残基图（residue graph）和力场库中的building blocks 步骤1：生成目标分辨率的断开残基图步骤2：在残基图层级匹配links 步骤3：将通用links匹配到具体残基，生成完整参数文件核心算法一：图匹配驱动的参数生成 Polyply将参数文件生成问题转化为图转换（graph transformation）问题。其核心思想是：将残基图映射为高分辨率的分子图，该图与目标分辨率无关。基本概念图表示：分子的连接性转化为图的边，原子特征（名称、残基名等）存储为节点属性 Block（构建块）：对应单个残基的所有相互作用和原子的图 Link（连接）：描述两个或多个残基连接时引入的相互作用（如键、角度）三步图转换算法步骤1：生成断开的残基图遍历输入残基图的所有残基，为每个残基从库中匹配对应的block，添加到空图中，形成目标分辨率的断开图。此时已包含目标分子的所有原子和残基内相互作用，但缺少跨残基的连接。步骤2：在残基层级查找所有links 为生成跨越多个残基的相互作用，需要在残基之间应用links。Polyply将其转化为残基图层级的子图同构问题：查找link在残基图上的所有可能匹配方式，受节点属性等约束限制。在残基图层级执行大幅降低了问题规模。步骤3：将通用links匹配到具体残基根据步骤2建立的link与残基的对应关系，程序将link中的原子与步骤1生成的断开图中的原子建立对应关系。匹配不仅基于原子名称和残基索引，还可扩展到其他原子特征，从而考虑残基图连接性未编码的信息（如手性、端基异构体）。当link被添加时，其边也被添加到断开图中，逐步将断开图转变为目标分辨率的连通图。算法优势通用性：适用于任意复杂的聚合物拓扑，包括分支、环状、统计共聚等结构可扩展性：通过匹配节点属性，可处理手性、端基异构等精细化学信息效率：在残基图层级解决子图同构问题，显著降低计算复杂度核心算法二：多尺度随机游走坐标生成 Polyply采用通用多尺度方法构建起始坐标：首先生成超粗粒化（super CG）分辨率表示，然后反向转换到目标分辨率。这一策略类似于CHARMM-GUI polymer builder，但有三个关键改进：动态参数推导：super CG模型参数基于目标力场动态推导，而非预定义自排除随机游走：采用随机游走而非全尺度动力学模拟自动反向转换：不依赖坐标片段库的自动化反变换图2：坐标生成的五步工作流程五步坐标生成算法步骤1：将所有分子映射为每残基一个珠子分析拓扑文件，检测所有分子类型。对每个分子，识别所有唯一残基并转换为blocks。创建通用的每残基一个珠子的super CG模型，以图形式存储。残基图的连接性从分子的键合图中提取。步骤2：为残基生成坐标每个block是单个残基的图，使用图嵌入（graph embedding）生成坐标。由于分子几何的特殊要求，采用两步图嵌入：首先使用Kamada-Kawai嵌入生成初始坐标随后基于残基内键合相互作用进行几何优化，使用L-BFGS优化器步骤3：推导通用CG模型参数自排除随机游走使用每残基一个珠子的近似CG模型，基于Lennard-Jones（LJ）势。关键参数推导： ε参数（LJ势阱深度）：固定为1 kJ/mol（因不执行动力学，吸引部分不重要） σ参数（决定堆积密度）：从残基模板坐标计算，反映残基体积。基于回转半径推导（将聚合物物理中的链回转半径概念移植到单个残基的分子几何）此外，算法还考虑了残基在全原子模型中的天然堆积密度，通过缩放因子调整不同力场间的差异。步骤4：通过随机游走生成super CG坐标对体系中每个分子执行随机游走。算法依次添加残基：第一个残基随机放置后续残基通过以下方式添加：在前一个残基周围随机采样方向根据键合相互作用确定距离检查与已放置残基的重叠（使用LJ势）若无冲突则接受，否则重新采样这一过程确保了生成的构象满足键合约束，同时避免了原子重叠。步骤5：反向映射到目标分辨率将super CG坐标反向映射到目标分辨率。关键步骤：每个残基的质心固定在super CG珠子位置残基内部坐标从步骤2的模板继承应用适当的旋转和平移，确保跨残基键合几何正确对生成的结构进行能量最小化，消除局部应力坐标生成的关键技术多尺度策略：先在粗粒度生成全局构象，再细化局部结构，极大提升了效率自排除机制：随机游走过程中实时检测并避免原子重叠，确保生成结构的物理合理性自动反向映射：基于几何约束的自动化反变换，无需人工设计坐标片段库验证案例案例1：聚合物熔体作者测试了聚丙烯（PP）、聚乙烯（PE）、聚苯乙烯（PS）和聚甲基丙烯酸甲酯（PMMA）四种聚合物熔体的密度预测。结果：所有体系在5-10 ns内达到平衡密度误差<2%，与实验值高度一致 PP熔体（最苛刻测试）的Flory特征比与实验数据完美吻合这验证了Polyply生成的初始结构具有良好的物理性质，能快速弛豫到平衡态。案例2：单链DNA和环状DNA 作者使用Martini 3力场生成了单链DNA（ssDNA）和环状单链DNA（cssDNA）的坐标。图3：DNA结构生成与验证 a-c：ssDNA序列、生成的初始结构和平衡后的结构 d：ssDNA的末端距离分布与Martini 3全原子模拟高度一致 e-f：cssDNA的初始和平衡结构，展示了环状拓扑的正确处理关键发现：生成的ssDNA结构经短时间平衡后，末端距离分布与基准全原子模拟结果一致 cssDNA的环状拓扑约束得到正确处理，无需手动调整案例3：微相分离嵌段共聚物作者构建了聚苯乙烯-聚甲基丙烯酸甲酯（PS-PMMA）二嵌段共聚物的微相分离结构。图4：嵌段共聚物微相分离展示了PS-PMMA嵌段共聚物自组装形成的层状（lamellar）微相分离结构。图中不同颜色代表PS和PMMA嵌段，清晰显示了周期性层状相结构。结果： Polyply能够直接生成预组装的微相分离结构避免了耗时的自组装模拟过程生成的结构稳定，与已知相图一致案例4：脂质囊泡内的液-液相分离作者构建了一个复杂体系：脂质囊泡内包裹的液-液相分离（LLPS）体系。图5：脂质囊泡内的液-液相分离体系 a：体系组成示意图（脂质囊泡+LLPS液滴） b：生成的完整结构，展示了囊泡内两相分离的液滴技术亮点：演示了Polyply处理多组分、多尺度、复杂几何体系的能力组合了脂质（Martini粗粒化）、聚合物（LLPS相）、溶剂等多种组分支持球形约束等非周期边界条件性能评估图6：性能基准测试 a：参数生成时间随聚合物长度的缩放关系（线性缩放） b：坐标生成时间随聚合物长度的缩放关系 c：坐标生成成功率随体积分数的变化关键结论：参数生成对数千个残基的聚合物仅需秒级时间坐标生成时间随链长近似线性增长在高体积分数（φ > 0.5）下仍能保持>90%的成功率 Q&A Q1：Polyply的图匹配算法与传统参数生成方法相比有何优势？ A1：传统方法通常针对特定聚合物类型编写专门代码，扩展性差。Polyply的图匹配算法将问题抽象为通用的子图同构匹配，只需定义building blocks和links即可支持新聚合物类型，无需修改核心代码。此外，在残基图层级执行匹配大幅降低了计算复杂度。 Q2：多尺度随机游走为什么不直接在目标分辨率生成坐标？ A2：直接在目标分辨率（特别是全原子）执行随机游走面临巨大的构象空间采样问题，且容易产生原子重叠。先在super CG层级生成全局构象可以：1）大幅减少自由度，提升采样效率；2）更容易满足键合约束；3）通过LJ势简单有效地避免大尺度重叠。反向映射步骤则利用局部几何优化解决精细尺度的冲突。 Q3：Polyply如何确保生成的聚合物链长分布符合实验？ A3：Polyply允许用户指定任意的链长分布（单分散、多分散、特定分子量分布等）。用户可以通过输入文件定义每条链的确切序列，或使用统计分布函数（如高斯分布、指数分布）来模拟真实的分子量分布。这为模拟真实聚合物样品提供了灵活性。 Q4：对于高度分支的聚合物（如树枝状大分子），Polyply是否适用？ A4：是的。Polyply的图表示天然支持任意拓扑结构，包括高度分支、星形、树枝状等。只需在残基图中正确定义分支点的连接关系，算法会自动处理所有跨残基的相互作用。作者在文中已演示了接枝共聚物（PEO-g-MA）的参数生成。 Q5：Polyply生成的初始结构质量如何？是否需要长时间平衡？ A5：从基准测试来看，Polyply生成的结构质量很高。聚合物熔体案例中，体系在5-10 ns内即达到平衡密度；DNA案例中，末端距离分布经短时间平衡后与全原子基准一致。这表明生成的结构已接近物理合理的构象，大大缩短了后续模拟的平衡时间。关键结论与批判性总结主要贡献 Polyply通过图转换算法实现了聚合物参数化的完全自动化，支持任意复杂拓扑结构多尺度随机游走策略在保证坐标质量的同时显著提升了生成效率力场无关的软件架构使其能广泛应用于不同力场和模型分辨率在聚合物熔体、DNA、嵌段共聚物、LLPS等多个复杂体系的成功应用验证了方法的鲁棒性局限性高体积分数限制：虽然在φ > 0.5时仍有>90%成功率，但对于极高密度体系（如晶体），随机游走方法可能需要过多尝试力场库依赖：虽然用户可自定义blocks和links，但对于全新化学体系，仍需手动构建参数库环状聚合物的闭环约束：对于大环聚合物，反向映射后闭环可能引入较大应力，需要更仔细的能量最小化动力学性质：论文主要验证了结构和热力学性质，对于依赖精确动力学的性质（如扩散系数、粘度）的适用性需进一步验证未来展望参数库扩展：建立涵盖更多化学单元的社区参数库，提升开箱即用性机器学习集成：利用ML预测最优super CG参数，进一步提升坐标生成效率晶体结构支持：开发针对晶格结构的专门算法，扩展到聚合物晶体模拟与实验数据整合：结合散射实验数据（SAXS、SANS）优化生成结构，提升与实验的一致性总体评价 Polyply代表了聚合物模拟工作流自动化的重大进步。其通用的图算法框架和力场无关设计，使其能够成为连接不同力场、不同分辨率、不同聚合物类型的统一平台。特别是对于高通量虚拟筛选这一新兴应用，Polyply提供的快速、自动化工作流具有不可替代的价值。虽然仍存在一些局限性，但软件的开源性和模块化设计为社区贡献和持续改进提供了良好基础。

Molecular Dynamics · 2025-11-16

Polyply技术细节：算法实现与扩展案例（附录）

本文是《Polyply：图匹配算法驱动的聚合物模拟参数生成与结构构建》的附录，包含详细的算法实现、参数推导和扩展验证案例。算法实现细节图嵌入与几何优化 Polyply使用两步图嵌入策略生成残基的初始坐标：步骤1：Kamada-Kawai嵌入 Kamada-Kawai算法将图嵌入问题转化为能量最小化： [E = \sum_{i<j} k_{ij} (d_{ij} - l_{ij})^2] 其中： $d_{ij}$是节点i和j之间的欧几里得距离 $l_{ij}$是图中i和j之间的最短路径长度 $k_{ij} = K / l_{ij}^2$是弹簧常数该算法能生成反映图拓扑的初始坐标，但不考虑分子几何约束。步骤2：L-BFGS几何优化基于残基内键合相互作用进行几何优化，目标函数： [F = \sum_{\text{bonds}} k_b (r - r_0)^2 + \sum_{\text{angles}} k_\theta (\theta - \theta_0)^2 + \sum_{\text{dihedrals}} k_\phi [1 + \cos(n\phi - \delta)]] 使用L-BFGS算法最小化，确保生成的残基几何满足力场约束。 Super CG模型参数推导回转半径计算对于单个残基，回转半径定义为： [R_g = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (\mathbf{r}i - \mathbf{r}{\text{COM}})^2}] 其中$\mathbf{r}_{\text{COM}}$是质心坐标。 LJ σ参数推导 super CG模型的σ参数基于回转半径： [\sigma = 2 R_g \times f_{\text{scale}}] 缩放因子$f_{\text{scale}}$根据力场调整： GROMOS全原子：$f_{\text{scale}} = 1.0$ Martini粗粒化：$f_{\text{scale}} = 0.85$ 这一差异反映了不同力场中残基天然堆积密度的不同。自排除随机游走算法伪代码如下：对于每个分子：将第一个残基随机放置在盒子中对于后续每个残基： max_attempts = 1000 for attempt in range(max_attempts): # 随机采样方向 direction = random_unit_vector() # 根据键长确定距离 distance = bond_length(previous_residue, current_residue) # 计算候选位置 candidate_position = previous_position + distance * direction # 检查与所有已放置残基的重叠 overlap = False for placed_residue in placed_residues: LJ_energy = calculate_LJ(candidate_position, placed_residue) if LJ_energy > threshold: # 默认10 kJ/mol overlap = True break if not overlap: accept_position(candidate_position) break if overlap: # 所有尝试都失败 return FAILURE 关键参数：重叠阈值：10 kJ/mol（对应约0.7σ的距离）最大尝试次数：1000次/残基扩展验证案例聚合物熔体详细数据作者测试了多种聚合物熔体，详细数据见下表：聚合物力场温度(K) 实验密度(g/cm³) 模拟密度(g/cm³) 误差(%) PP GROMOS 513 0.76 0.74 ± 0.01 2.6 PE GROMOS 413 0.78 0.77 ± 0.01 1.3 PS GROMOS 513 0.97 0.95 ± 0.02 2.1 PMMA GROMOS 513 1.10 1.08 ± 0.02 1.8 PEO Martini 413 1.06 1.05 ± 0.01 0.9 PMA Martini 413 1.10 1.09 ± 0.01 0.9 所有体系在5-10 ns内达到平衡密度，表明Polyply生成的初始结构质量高。 DNA末端距离分布 SI图1：DNA回转半径和末端距离分布左图：回转半径分布右图：末端距离分布红色：全原子MD模拟参考蓝色：Polyply生成的200个初始结构关键观察： Polyply生成的分布较宽，但与全原子分布有良好重叠证明Polyply构象是良好的起始点注意：全原子力场预测的$R_g = 2.8 \pm 0.5$ nm低于实验值$3.8 \pm 0.1$ nm 环状DNA在病毒衣壳内的构建 SI图2：猪病毒环状ssDNA生成工作流程案例亮点：从数据库获取病毒基因组序列和衣壳晶体结构使用ParmSC1力场为DNA生成参数衣壳蛋白使用Amber14力场 DNA使用球形几何约束+衣壳边界限制每个核苷酸位点放置一个$\ce{Na+}$离子（使用ligation功能）使用cycle选项生成环状DNA 关键技术：球形约束加速算法（避免与每个衣壳原子检查重叠）高盐浓度（~2 mol/L）使DNA采用柔性无规卷曲构象三步平衡：0.1 fs柔性键 → 1 fs约束键 → 2 fs生产运行结果：60 ns生产运行中体系稳定，观察到衣壳内外的离子交换，暗示衣壳内存在最优盐浓度。聚合物锂离子电池 SI图3：PS-b-PEO LiTFSI掺杂电池生成工作流程体系组成：聚苯乙烯-聚乙二醇二嵌段共聚物（PS-b-PEO）锂双三氟甲烷磺酰亚胺盐（LiTFSI）掺杂 Martini 2粗粒化力场验证结果：层间距：模拟值~21 nm，实验值20 nm（优异吻合）盐分布：$\ce{Li+}$富集在PEO畴内，与实验报道的盐通道形成一致相分离：清晰的PS和PEO交替层状结构，界面有一定混合这一案例展示了Polyply在功能材料模拟中的应用潜力。脂质囊泡内液-液相分离详细工作流程 SI图4：葡聚糖-PEO液-液相分离囊泡工作流程葡聚糖分子量分布建模：作者使用线性缩聚反应动力学模型： [\text{prob}(N, p) = N \times p^{N-1} (1-p)^2] 其中$p$是反应程度。通过调整$p$使数均分子量$\bar{M}_n \approx 65$（与实验一致），得到多分散指数PDI $\approx 1.5$（文献值1.8）。支化度：5%的1,3-糖苷键（文献值，分子量<100,000 g/mol）结果：成功生成包含500个不同链长葡聚糖分子的多分散体系展示了Polyply处理统计共聚和多分散性的能力性能优化策略参数生成优化子图同构匹配：在残基图层级执行而非原子层级，复杂度从$O(N_{\text{atoms}}!)$降至$O(N_{\text{residues}}!)$ 缓存机制：相同残基类型的block只需加载一次并行化：独立分子的参数生成可并行执行坐标生成优化 Early termination：检测到不可能完成的构象立即终止（如体积分数过高）分层放置：优先放置大分子，小分子填充空隙网格加速：使用空间分区网格加速重叠检测，复杂度从$O(N^2)$降至$O(N \log N)$ 成功率与体积分数作者系统测试了不同体积分数下的成功率：体积分数φ 成功率平均尝试次数/残基 0.1 100% <10 0.3 99% <50 0.5 95% <200 0.7 90% <500 0.9 <50% >1000 建议： φ < 0.7：直接使用Polyply 0.7 < φ < 0.9：增加max_attempts或使用更小的初始盒子尺寸 φ > 0.9：考虑先在较低密度生成，再通过NPT压缩力场库扩展当前支持的力场全原子：GROMOS 54A7, GROMOS 2016H66, Amber14, CHARMM36 粗粒化：Martini 2, Martini 3, SDK（软球模型）添加新残基示例创建一个PEO单元的block文件（JSON格式）： { "name": "PEO", "atoms": [ {"name": "C1", "type": "CH2", "charge": 0.0}, {"name": "O", "type": "O", "charge": -0.4}, {"name": "C2", "type": "CH2", "charge": 0.0} ], "bonds": [ {"atoms": ["C1", "O"], "length": 0.143, "force_constant": 8000}, {"atoms": ["O", "C2"], "length": 0.143, "force_constant": 8000} ], "angles": [ {"atoms": ["C1", "O", "C2"], "angle": 109.5, "force_constant": 450} ] } 创建对应的link文件定义C2-C1’连接： { "name": "PEO-PEO", "atoms": ["C2", "+C1"], "bond": {"length": 0.153, "force_constant": 7500} } 常见问题与解决方案问题1：坐标生成失败症状：生成过程卡住或报错“Maximum attempts reached” 可能原因：体积分数过高残基间存在不兼容的几何约束 LJ参数设置不合理解决方案：降低目标密度，稍后通过NPT压缩检查残基模板坐标的合理性调整$f_{\text{scale}}$参数问题2：生成结构需要长时间平衡症状：能量最小化或MD平衡耗时过长可能原因：存在严重的原子重叠键长/键角与力场参数偏差大解决方案：降低重叠阈值（更严格的重叠检测）使用更精细的几何优化（增加优化步数）分阶段平衡（逐步增加时间步长）问题3：环状聚合物闭环失败症状：环不闭合或闭环处应力过大可能原因：链长与持久长度不匹配随机游走未考虑闭环约束解决方案：使用更灵活的链（降低持久长度）先生成开链，后通过约束MD逐步闭合增加Monte Carlo尝试次数与其他工具的比较特性 Polyply CHARMM-GUI Packmol Moltemplate 参数生成 ✓ ✓ ✗ ✓ 坐标生成 ✓ ✓ ✓ ✗ 力场无关 ✓ ✗ ✓ ✓ 任意拓扑 ✓ 部分 ✗ ✓ 高通量友好 ✓ ✗ ✓ 部分图形界面 ✗ ✓ ✗ ✗ Polyply的独特优势：唯一同时支持参数和坐标生成、且力场无关的工具图算法框架提供最大的灵活性和可扩展性命令行界面最适合高通量脚本化工作流未来技术路线图机器学习增强：使用ML预测最优super CG参数和重叠阈值 GPU加速：将重叠检测和能量计算移至GPU 云服务：提供Web界面和REST API，降低使用门槛与自动化力场开发工具集成：如GAFF、CGenFF自动参数化工具晶格结构模板：为聚合物晶体提供专门的构建算法相关资源主文档：Polyply核心原理和主要应用 Polyply官方教程 GitHub Issues：问题反馈和讨论

Molecular Dynamics · 2025-11-16

多方向牵引分子动力学新利器：以各向异性视角探测生物大分子力学

多方向牵引分子动力学新利器：以各向异性视角探测生物大分子力学本文信息标题：multiSMD——多方向牵引分子动力学Python工具集作者：Katarzyna Walczewska-Szewc、Beata Niklas、Kamil Szewc、Wiesław Nowak 发表时间：2025年10月2日单位：Nicolaus Copernicus University（波兰托伦）、ESS Engineering Software Steyr GmbH（奥地利）引用格式：Walczewska-Szewc, K., Niklas, B., Szewc, K., & Nowak, W. (2025). multiSMD – A Python toolset for multidirectional steered molecular dynamics. Journal of Chemical Information and Modeling, 65(23), 10803–10807. https://doi.org/10.1021/acs.jcim.5c01742 源代码：GitHub: https://github.com/kszewc/multiSMD（Apache 2.0许可证）摘要分子力主导着从细胞力学到分子识别事件等所有生物过程。传统的单向牵引分子动力学（SMD）模拟难以捕捉生物大分子的各向异性力学响应。本研究开发了multiSMD工具，通过自动化多方向力学探测，在NAMD和GROMACS中系统地沿多个空间向量探测外力效应，揭示隐藏于单轴方法中的方向依赖现象，如变化的能垒和结构韧性。通过SARS-CoV-2 S蛋白-ACE2复合物、钾通道ATP解离和本征无序区域力诱导重塑等案例，展示了该方法在探测生物大分子纳米力学各向异性中的实用价值。核心结论 multiSMD自动化工作流：系统生成多方向SMD输入文件并简化数据后处理，降低操作复杂度揭示力学各向异性：发现传统单向拉伸遗漏的方向依赖现象，如SARS-CoV-2突变体在特定方向的选择性增强稳定性实验指导作用：为AFM、光镊等单分子力谱实验提前筛选关键力学方向，优化实验设计工具多样性：支持不同生物体系（蛋白-蛋白、蛋白-配体、本征无序区域），展现广泛适用性背景分子力在调控生物功能中发挥着基础性作用，从质子泵的运行到信号转导无一不涉及。这些力源于静电作用、范德华力、氢键和疏水效应等分子相互作用，而其时间演化和方向特异性对理解生物体系中的力学行为至关重要。然而，生物大分子往往因其非球形的复杂结构而展现出各向异性的力学响应——即机械和动力学性质随外力施加方向变化而变化。单分子力谱技术（如AFM和光镊）虽然能够直接测量piconewton尺度的力，但面临样品制备困难、单分子识别困难和非特异性相互作用干扰等挑战，限制了其高通量应用。相比之下，分子动力学（MD）模拟作为一种补充方法，提供了原子分辨率的计算显微镜功能。在牵引分子动力学（SMD）中，沿预选坐标施加时间依赖的外力以加速自由能景观中的转变，使得研究通常不可达的时间尺度的生物过程成为可能。然而，传统SMD仅沿单一方向探测分子力，可能遗漏了各向异性力学响应中的关键信息——不同的拉伸方向可能导致截然不同的破裂力、解离路径或结构变形机制。关键科学问题为什么需要多方向力学探测？答案在于生物体系固有的各向异性。考虑一个蛋白质复合物：拉伸不同的界面位点或沿不同的力方向可能会激活完全不同的解离机制。例如，在SARS-CoV-2 S蛋白-ACE2复合物中，增强结合亲和力的突变可能只沿特定方向强化相互作用，这种方向偏好性在单向拉伸实验中容易被忽视。类似地，内含本征无序区域（IDR）的蛋白质复合物，其无序尾部的解离机制极度依赖于拉伸方向——不同方向可能导致截然不同的出口通道。多方向SMD的核心科学问题在于：单个分子复合物对外力的响应是否在所有方向上均匀？答案是否定的。通过系统地从多个角度探测分子力，我们能够绘制力学景观的各向异性图谱，揭示隐藏的转变态、方向特异的解离路径和结构失稳机制。创新点自动化工作流系统：Python脚本自动生成球面坐标系中的多个拉伸方向，用户可灵活调整采样密度（默认9个方向）双引擎兼容性：支持NAMD和GROMACS两个主流MD引擎，提高工具的通用性和可达性集成分析工具：配套的分析脚本（analysis_namd.py、analysis_gromacs.py）自动提取力随时间、力随距离、氢键动态等关键数据各向异性可视化：生成Tcl脚本供VMD使用，直观展示所有拉伸方向的空间分布开源与可用性：Apache 2.0许可证，托管于GitHub，面向专家和非专家用户研究内容 multiSMD工作原理 multiSMD的核心工作流如下： graph TB subgraph S1["准备阶段"] direction LR A["输入：PDB结构 蛋白质复合物"] --> B["计算牵引主轴 固定蛋白 ↔ 被拉蛋白 质心连线"] B --> C["生成拉伸向量集合 球面坐标系采样 theta: 0°, 45°, 90° phi: 0°, 90°, 180°, 270° 总计9个方向 （θ=0°和90°时φ重合）"] end subgraph S2["输入生成与计算"] direction LR D["输入文件生成 parameters参数文件"] --> E["MD模拟配置 NAMD/GROMACS topologies拓扑"] E --> F["生成bash脚本 每个方向一个"] F --> G["HPC并行执行 所有方向同时运行 独立计算任务"] end S1 --> S2 --> S3 subgraph S3["数据分析与可视化"] H["提取SMD输出数据"] --> I["计算破裂力 方向依赖性"] H --> J["力 vs 距离 曲线"] H --> K["氢键动态 时间变化"] H --> L["结构形变 RMSD分析"] end I --> M["VMD可视化 Tcl脚本渲染 拉伸向量分布"] J --> M K --> M L --> M M --> N["科学成果 各向异性力学图谱"] style S1 fill:#e3f2fd,stroke:#1976d2,stroke-width:2px style S2 fill:#fff3e0,stroke:#f57c00,stroke-width:2px style S3 fill:#e8f5e9,stroke:#388e3c,stroke-width:2px style A fill:#b3e5fc style C fill:#81d4fa style G fill:#ffe0b2 style I fill:#c8e6c9 style J fill:#a5d6a7 style K fill:#81c784 style N fill:#c8e6c9,stroke:#2e7d32,stroke-width:2px 这种系统的多向探测方法一次性扫描整个力学空间，而不是依赖于单一的预选方向，从而大幅降低了遗漏关键现象的风险。案例研究I：SARS-CoV-2 S蛋白-ACE2复合物的各向异性解离图1：SARS-CoV-2 S蛋白RBD-ACE2复合物的多方向破裂力分析研究人员将multiSMD应用于SARS-CoV-2 S蛋白受体结合域（RBD）与人ACE2受体的相互作用。该复合物在COVID-19感染过程中起关键作用，理解其力学特性对药物设计具有指导意义。方法设定：从平衡MD轨迹中提取复合物界面的动态稳定片段，进行0.25μs经典MD预平衡，随后沿9个不同方向进行10ns的SMD拉伸（5个独立重复）。同时引入已知增强结合的三个ACE2突变体（S19W、T27W、N330Y），对比野生型与突变体。关键结果：图2：SARS-CoV-2 S蛋白-ACE2复合物的多方向破裂力和氢键分析 graph LR subgraph "实验设计" A["复合物 WT & MUT"] --> B["9方向 5重复 10 ns"] end subgraph "破裂力结果" C["WT 200-700 pN 3.5倍差异"] --> E["各向异性 强"] D["MUT 增强 非均匀"] --> E end subgraph "氢键动态" F["WT 全向下降"] --> H["方向依赖 机制"] G["MUT ④⑤稳定"] --> H end B --> C B --> D B --> F B --> G E --> I["科学发现"] H --> I I --> J["范德华相互作用 空间特异性"] style A fill:#e1f5ff,stroke:#1976d2,stroke-width:2px style E fill:#c8e6c9,stroke:#2e7d32,stroke-width:2px style H fill:#fff3e0,stroke:#f57c00,stroke-width:2px style J fill:#fce4ec,stroke:#c2185b,stroke-width:2px 关键观察：野生型复合物：沿所有拉伸方向均观察到氢键数目的显著下降。破裂力在不同方向间波动，最大约700 pN，最小约200 pN——相同复合物、不同拉伸方向、破裂力存在显著差异（最大与最小相差3.5倍）。 ACE2突变体：令人惊讶的是，突变体在某些特定方向上才增强稳定性。例如，在方向④和⑤上，突变体氢键数在拉伸初期保持稳定，与野生型的迅速下降形成对比。破裂力在大多数方向上都有所增加，但增幅不均一——某些方向增加50%以上，某些方向则无显著改变。机制推断：三个突变位点引入的芳香侧链（W19、W27、Y330）通过范德华相互作用增强了相互作用，但这种增强在空间上是各向异性的，与相互作用位点的几何位置密切相关。这个案例直接证明了：单向拉伸实验可能错过相互作用的方向特异性强化，多方向探测是全面理解蛋白质相互作用各向异性的必要条件。案例研究II与III概述案例II：Kir6.1与Kir6.2通道的ATP解离机制（详见附录）分析了两个ATP敏感钾通道亚型对配体的方向依赖性响应。结果显示Kir6.1沿特定方向（方向③）需要更大的力（约1.5倍）才能释放ATP，这归因于R195/K185氨基酸替换导致的静电相互作用差异。案例III：KNt从SUR2B口袋释放（详见附录）展示了本征无序区域（IDR）的出口机制如何高度依赖于拉伸方向。两个测试方向需要的力差异巨大（初期~400 pN vs. 初期~100 pN），体现了IDR路径依赖性释放的机制。这两个案例进一步证明了multiSMD方法的跨领域适用性——从蛋白质-蛋白质相互作用、到小分子配体解离、再到无序区域力学，都能揭示隐藏的各向异性。与实验的联系：指导AFM与光镊研究 multiSMD的一个重要实用价值在于提前筛选关键拉伸方向。AFM和光镊实验成本高、耗时长，往往只能探测少数几个预选方向。通过multiSMD的快速计算筛选，研究人员可以：识别出最有趣的拉伸方向（如破裂力最大的方向、机制差异最大的方向）预测方向依赖的力学特性，指导实验设计解释实验中观察到的异常现象（如为什么某个方向的拉伸力异常高？） Q&A Q1：为什么不直接用自由能方法（如伞形采样）计算所有方向的PMF？ A1：自由能方法虽然精确，但计算成本高达数百个CPU小时/个方向。multiSMD采用快速筛选策略——先用5-20 ns的短SMD模拟扫描所有方向，识别有趣的方向后再用元动力学（metadynamics）等精细方法深入研究。这样既节省资源又保证科学质量。 Q2：SMD拉伸速度对结果的影响有多大？ A2：拉伸速度会影响绝对力值（速度越快，力越大），但不同方向间的相对差异通常保持稳定。multiSMD主要关注各向异性——即方向间的力学差异，因此适度的速度变化（如从0.0005改为0.001 nm/ps）不会改变定性结论，仅影响定量力值。 Q3：本征无序区域（IDRs）为什么特别适合多方向探测？ A3：IDR缺乏固定的三维结构，其在口袋外的确切位置不确定。这意味着不存在自然的逆向拉伸方向。多方向SMD能系统地探测所有可能的出口通道，识别出最低能障的释放路径，这对理解IDR的生物学功能至关重要。 Q4：multiSMD能否用于预测药物结合的方向依赖性？ A4：可以。通过对蛋白-配体复合物进行多方向SMD，可以绘制不同拉伸方向的破裂力图谱。破裂力与结合亲和力相关，这种各向异性图谱可用于鉴别抑制剂候选物的相对效力。结合Jarzynski等式可进一步估算自由能。 Q5：多方向SMD的计算成本如何？是否可行？ A5：详见附录。对于~80,000原子的复合物，每个方向的10 ns SMD需约38.8 CPU小时。9个方向×5重复×2变体=约3,500 CPU小时，在现代HPC集群上可并行执行，总墙钟时间仅需数小时。成本是可管理的，尤其当作为实验前期筛选工具时。关键结论与批判性总结主要贡献工具创新：multiSMD填补了现有工具的空白，提供了首个用户友好的多方向SMD自动化框架，大幅降低了使用门槛。科学发现：三个案例研究清晰地证明了生物大分子对外力的各向异性响应，突出了单向方法的局限性。应用前景：特别适合指导单分子力谱实验、药物设计中的结合亲和力评估、以及力敏感蛋白质的力学特征化。局限性与未来方向当前局限：所有案例均基于非平衡SMD，力值受拉伸速度影响；需结合平衡方法（如Jarzynski等式）才能获得真实自由能分子系统大小限制（~80,000-300,000原子）；超大复合物（如完整病毒颗粒）仍不可达本征无序区域的非平衡特性可能导致力值被大幅高估；需metadynamics等精细采样确认 SARS-CoV-2案例仅分析了截断的界面片段，缺少全长蛋白质的等位效应分析未来发展：整合Jarzynski等式、metadynamics等高级采样方法，从力学数据精确估算自由能景观扩展至膜蛋白、大型蛋白质复合物、甚至病毒颗粒的力学特征开发机器学习模块，从SMD轨迹直接预测方向依赖的力学性质与AFM实验团队建立紧密合作，并联验证计算与实验的一致性

Molecular Dynamics · 2025-11-08

多方向牵引分子动力学新利器：附录（技术细节与案例研究）

multiSMD工具附录：技术细节、案例研究与计算成本技术实现细节 multiSMD程序结构 multiSMD由两个主程序组成： multismd_namd.py：为NAMD生成SMD输入文件 multismd_gromacs.py：为GROMACS生成SMD输入文件两个程序的工作流程相同：读入PDB结构：解析蛋白质复合物的原子坐标计算牵引向量：计算固定蛋白质与被拉蛋白质的质心，连线作为主轴生成方向集合：在球面坐标系中以指定的角度采样。默认设置在 theta 坐标中包含 3 个角度（0°、45°、90°），在 phi 坐标中包含 4 个角度（0°、90°、180°、270°）。由于球面坐标的几何性质，当 θ=0° 或 θ=90° 时，所有的 φ 值都指向同一点（分别为北极和赤道），因此实际产生的独立方向为：1（θ=0°）+ 4（θ=45°）+ 1（θ=90°）= 9 个方向，有效覆盖一个选定的半球参数化方向：用theta和phi角度参数化每个拉伸向量生成输入文件：为每个方向创建独立的目录，包含MD参数文件（.conf或.mdp）、拓扑文件和bash脚本可视化：生成Tcl脚本，在VMD中展示所有拉伸向量的空间分布后处理分析脚本两个分析脚本随之提供： analysis_namd.py：处理NAMD输出文件（.fxe文件） analysis_gromacs.py：处理GROMACS输出（.xtc轨迹和能量数据）提取的关键数据：拉伸力随时间的演化（Force vs. Time）力与两个定义原子组质心距离的关系（Force vs. Distance）拉伸过程中氢键数目的时间依赖性（H-bond count vs. Time）最大破裂力的统计（均值±标准差，来自多个重复）使用MDAnalysis库分析轨迹，Matplotlib绘图。数据分析与可视化工作流 graph TB subgraph "MD模拟输出" A1["NAMD输出 .fxe力文件 .dcd轨迹"] A2["GROMACS输出 .edr能量文件 .xtc轨迹"] end subgraph "后处理脚本" B1["analysis_namd.py"] B2["analysis_gromacs.py"] end subgraph "提取的数据" C1["力随时间 Force vs Time"] C2["力随距离 Force vs Distance"] C3["氢键计数 H-bond count"] C4["最大破裂力 Max force + SD"] end subgraph "统计分析" D1["计算均值与 标准差"] D2["方向依赖性 比较"] D3["结构形变 RMSD/RMSF"] end subgraph "可视化输出" E1["力学各向异性 极坐标图"] E2["破裂力热图 方向矩阵"] E3["氢键动态曲线 多向对比"] end A1 --> B1 A2 --> B2 B1 --> C1 B1 --> C2 B1 --> C3 B1 --> C4 B2 --> C1 B2 --> C2 B2 --> C3 B2 --> C4 C1 --> D1 C2 --> D2 C3 --> D3 C4 --> D1 D1 --> E1 D2 --> E2 D3 --> E3 E1 --> F["科学发现 力学各向异性 方向依赖机制"] E2 --> F E3 --> F 案例研究II：Kir6.1与Kir6.2通道的ATP解离机制对比背景内向整流钾通道（Kir6.x）是ATP敏感钾通道（KATP）的孔形成亚基。这些通道通过感应细胞ATP/ADP比例来调控钾离子流和膜兴奋性，是葡萄糖稳态和胰岛素分泌的关键调节器。 Kir6.1和Kir6.2是两种主要亚型，尽管序列和结构相似度高，但它们对ATP的敏感性存在显著差异。ATP结合位点高度保守（cryo-EM结构6C3P和7MIT确认），但对ATP的回应差异提示存在微妙的机制差异。一个关键的序列变异是R195（Kir6.1）vs. K185（Kir6.2）的替换——两者都带正电荷，都对ATP结合至关重要，但可能对ATP结合力学的影响不同。方法系统构建： Kir6.1（PDB: 7MIT）和Kir6.2（PDB: 6C3P）的闭态同源体，各含4个ATP分子 CHARMM-GUI准备，ATP分子放置在结合口袋（用Schrödinger准备向导优化）不对称脂双分子层嵌入：外侧100% POPC，内侧90% POPC + 10% SAPI24（100 × 100 Å） CHARMM36m力场预平衡： GROMACS 2020中进行能量最小化 → 7步平衡 → 3个独立的250 ns生产运行（NPT系综） Nosé-Hoover恒温器，Parrinello-Rahman等压器 SMD模拟：从最后一帧作为起始结构 NVT系综（Nosé-Hoover恒温器）恒定拉伸速度：$v_{pull} = 0.0005 \, \mathrm{nm/ps}$ 3个独立重复，3个拉伸方向在ATP完全解离之前进行主要结果图S1：Kir6.1/Kir6.2的方向依赖ATP解离方向② 方向③ Kir6.1最大力（pN） ~250 ± 50 ~350 ± 60 Kir6.2最大力（pN） ~260 ± 40 ~230 ± 50 力的比值（K6.1/K6.2） ~1.0 ~1.5 方向③呈现出最显著的亚型差异：Kir6.1需要约1.5倍更大的力来解离ATP。这与ATP结合位点的空间分布一致——R195/K185替换位点在方向③恰好处于拉伸方向的对齐位置。机制分析： R195（Kir6.1）的长侧链与ATP三磷酸基团形成更强的静电相互作用 K185（Kir6.2）虽然也带正电，但侧链较短，静电势场覆盖范围较小方向③的拉伸直接应用于这两个残基，最大程度激活了它们的静电相互作用差异方向②则几乎垂直于R195/K185轴，因此两亚型差异最小限制：虽然该结果提示Kir6.1可能有更强的ATP结合，但实际的ATP敏感性不仅由Kir6亚基决定，还受到： SUR（磺脲受体）亚基的相互作用 Mg-核苷酸的调制 PIP2的调节效应 NBD二聚化状态变化在完整的KATP通道复合物中，这些因素会修饰甚至反转ATP敏感性的差异。因此，multiSMD的结果提供了局部的、孤立条件下的力学洞察，但需结合全长系统的模拟才能完全理解生理相关性。案例研究III：KNt从SUR2B口袋中的解离机制背景与科学问题血管KATP通道（Kir6.1/SUR2B）的关闭与Kir6.1的N末端（KNt，26个残基）插入SUR2B远端口袋的现象密切相关。在闭态通道的cryo-EM结构中（PDB: 7MJP），可以观察到电子密度对应于KNt及其与SUR2B的相互作用。而在开态结构中，当SUR的核苷酸结合域（NBD）发生二聚化时，KNt从口袋中消失。这提示存在一个生理相关的KNt进出过程。关键问题是：KNt作为本征无序区域，缺乏确定的口袋外位置，它应如何最有效地离开？是否存在特定的释放通道？多方向SMD能否识别出这些通道？方法系统构建： SUR2B与Kir6.1-Nt（26个残基，红色标记）复合物，基于PDB 7MJP 嵌入POPC膜，CHARMM-GUI溶剂化（135 × 135 × 160 Å）能量最小化 + 平衡（GROMACS，NPT系综）两种条件：无配体：单纯的KNt-SUR2B相互作用含glibenclamide：一种磺脲类药物，稳定KNt并促进通道闭合 SMD拉伸方向：二维拉伸向量（方向①和②）拉伸位点：KNt的近端部分（残基20-22）目标：评估两个方向的解离阻力，识别更容易的离开通道主要结果图S2：KNt从SUR2B口袋的多方向释放无配体条件方向①（垂直拉伸）：初期需克服~400 pN的力（E1196-K24和E1173-R23盐桥断裂）这些静电相互作用垂直于拉伸方向，难以有效破坏随着KNt逐渐离开口袋，力逐渐下降方向②（水平拉伸）：初期阻力较小（~100-150 pN）力沿着E1196-K24/E1173-R23相互作用的轴向，更高效地破坏静电相互作用 KNt远端部分（残基1-10）从口袋离开时力陡增（~300-400 pN）推论：方向②提供了一条更容易的离开通道，至少在初期。含glibenclamide条件在两个方向上，glibenclamide的存在都稍微增加了所需的力（特别是方向②）这与glibenclamide支持闭态、稳定KNt位置的生物学角色相符但即使在glibenclamide存在下，方向②仍比方向①更容易 KNt-SUR2B接触频率分析补充图S2b和S2c呈现了KNt各残基与SUR2B的接触频率热图。关键观察： E1196和E1173是KNt结合的主要锚点 K24和R23是KNt上的关键正电残基在无配体条件下接触频率最高（>0.8） glibenclamide存在时，接触频率略有增加，表明复合物稳定性增强生物学意义与限制意义： multiSMD成功识别了出口通道的各向异性：KNt更容易沿水平方向离开口袋这与通道开合循环的假说相符：NBD二聚化可能改变口袋的空间构象，使KNt易于沿有利方向逃逸提示了理性药物设计的新思路：调节KNt与SUR2B的相互作用强度来控制通道状态限制：当前的短SMD（几纳秒）可能低估了复杂的水和离子的作用缺少精确的势能均匀力（PMF）表征；需要使用umbrella sampling或metadynamics进行后续验证 IDR的本质灵活性意味着”口袋”和”外部”的边界模糊；严格的PMF定义困难全长KATP通道复合物（包含完整的NBD二聚体）的效应尚未探索计算成本与资源优化多方向SMD的计算成本与以下因素线性相关：系统大小（原子数）模拟方向数（通常9-16）每个方向的重复数（通常3-5）每个重复的模拟时长（通常5-20 ns）实际成本估算案例I：SARS-CoV-2 S-RBD:ACE2复合物系统规模：~80,000原子 MD引擎：NAMD 2.14 硬件：LUMI超算（CSC, Finland）每个重复的成本：10 ns SMD需~38.8 CPU小时（墙钟时间38.8小时单核）总成本：9方向 × 5重复 × 2变体（WT + MUT）= 90个10-ns runs 90 × 38.8 CPU h = 3,492 CPU小时在LUMI的256核节点上，约需13-15小时墙钟时间案例II & III：Kir6.1/ATP与SUR2B/KNt系统系统规模：~272,000-304,000原子 MD引擎：GROMACS 2020 硬件：OKEANOS超算（波兰ICM）配置：5个节点，总计120个CPU核（每节点24核）每个重复的成本：~1,837 CPU小时，墙钟时间~7.65小时典型研究的成本：2-3个方向 × 3重复 = 6-9个runs ~11,000-16,500 CPU小时在120核配置下墙钟时间约为~10-15小时优化策略为使多方向SMD研究在有限的计算资源下可行，推荐以下策略： 1. 分层筛选策略 graph LR subgraph Stage1["第1阶段：全面扫描"] direction TB A["全面扫描 9个方向 1次重复 5-10 ns/方向 成本：低"] end subgraph Stage2["第2阶段：快速筛选"] direction TB B["分析结果 破裂力对比 机制差异 识别关键方向"] end subgraph Stage3["第3阶段：精细化研究"] direction TB C["深入研究 4-5个关键方向 3-5次重复 10-20 ns/方向 成本：中"] end subgraph Stage4["第4阶段：精确计算"] direction TB D["高级采样方法 Jarzynski等式 Metadynamics 伞形采样 成本：高"] end subgraph Stage5["最终结果"] direction TB E["精确自由能景观 势能均匀力PMF 完整机制模型"] end A --> B B --> C C --> D D --> E style A fill:#e1f5ff,stroke:#0277bd,stroke-width:2px style C fill:#fff3e0,stroke:#f57c00,stroke-width:2px style D fill:#f3e5f5,stroke:#6a1b9a,stroke-width:2px style E fill:#c8e6c9,stroke:#00695c,stroke-width:2px subgraph CostComparison["成本对比"] direction TB I["全覆盖方案 9方向 × 5重复 = 45个runs 成本：100%"] J["分层方案 9×1 + 4×5 = 29个runs 成本：65% 节省：35%"] end 这种分层方法大幅削减总成本：例如从9方向×5重复全覆盖，降低至初筛9×1+深入4×5 = 29个runs，成本约为原来的65%（节省35%）。 2. 参数优化参数原始优化影响拉伸速度（nm/ps） 0.0005 0.001-0.002 模拟时间↓50%，力值↑但相对差异保持模拟时长（ns/方向） 10-20 5-10 成本↓50%，仍可捕捉破裂事件重复数 5 3 统计精度↓，成本↓40% 系统大小完整复合物界面片段成本↓70%，但可能遗漏远程作用 3. 高通量并行执行 multiSMD的最大优势：所有方向的模拟相互独立，可在HPC集群上完全并行。 9个方向可同时提交，总墙钟时间仅为单个方向所需时间在具有数千核的超算上，整个多方向研究可在24-48小时内完成 4. 系统大小选择完整系统（全长蛋白+水+离子）：100,000-300,000原子，cost: 高最小相关系统（仅交互界面+薄水层）：30,000-80,000原子，cost: 低-中，推荐用于初筛在我们的SARS-CoV-2案例中，使用截断的界面片段而非全长RBD和ACE2，将成本从~10,000 CPU h降至~3,500 CPU h，同时仍保留了关键的相互作用信息。 5. 后处理数据管理多方向研究生成大量轨迹数据。建议：仅保留关键帧和分析数据，删除原始轨迹（每个方向节省数GB空间）使用multiSMD的分析脚本直接提取统计量，避免重复分析利用并行化的数据处理脚本（如使用Python多进程）加速后处理补充分析与数据氢键动态的定量分析在所有三个案例中，监测拉伸过程中的氢键破裂是理解相互作用机制的关键。multiSMD通过MDAnalysis库自动识别满足以下标准的氢键：供体-受体距离 < 3.5 Å 角度标准（供体-H-受体）< 30° SARS-CoV-2案例中的定量（图2d）：野生型，初始：~35-40条氢键（不同方向变异小）拉伸后（10 ns）：~5-15条（取决于方向）破裂速率：最快方向（方向②）在前2 ns内破裂>80%的氢键；最慢方向（方向⑦）在整个10 ns过程中仅破裂~60% 这种方向依赖的破裂动力学直接反映了相互作用的各向异性：某些方向直接对齐主要氢键，快速破坏；其他方向则需通过复杂的蛋白质变形间接破坏。 Force vs. Distance曲线的解释 multiSMD生成的Force vs. Distance曲线（中间列，图S3）提供了额外的机制洞察：单峰曲线：表现为一个明显的力最大值，提示单个主要的能垒多峰曲线：多个力峰，表明逐步的相互作用破裂（例如分层的氢键网络）曲线宽度：反映了相互作用强度的分布；窄曲线提示相互作用集中，宽曲线提示分散在Kir6.1/ATP案例中（S1 b,d）：方向②的力随距离曲线形状宽且平缓，提示ATP离开过程经历多个小能垒方向③的曲线更尖锐，提示一个主导的破裂事件（R195-ATP相互作用的破裂）这些曲线的微观特征可与自由能景观相关联，为后续的metadynamics等精细方法提供初步预测。氨基酸贡献分析（残基接触频率热图）图S6呈现的残基接触频率热图揭示了每个氨基酸对相互作用的贡献： Kir6.1 ATP结合位点关键残基（接触频率 > 0.8）： R51, R195, L215, Y339, N48, I51, F342等 Kir6.2对应残基： R50, K185, L204, Y330, N49, I49, F333等（位置略微不同）虽然总体布局相似，但R195（K6.1）vs. K185（K6.2）的位置细微差异和相对朝向的不同，造就了ATP解离力的方向依赖差异。这一分析为设计选择性KATP通道抑制剂提供了药物设计线索。应用前景与参考资源 multiSMD已被应用于以下领域的研究：蛋白质相互作用工程：改进蛋白质-蛋白质相互作用的方向特异性稳定性药物设计：评估小分子抑制剂的方向依赖解离，筛选候选药物生物材料：设计机械强度各向异性的生物聚合物和支架基础生物物理：理解内在无序蛋白质、信号蛋白和膜蛋白的力学特征使用multiSMD的研究者可访问GitHub仓库获取代码、文档和使用示例：主仓库：https://github.com/kszewc/multiSMD 许可证：Apache 2.0（自由商业与非商业使用）联系方式：kszewc@umk.pl

Molecular Dynamics · 2025-11-08

【非平衡方法探索】Jarzynski等式在QM/MM自由能计算中的实践:速度不等于效率

【非平衡方法探索】Jarzynski等式在QM/MM自由能计算中的实践:速度不等于效率本文信息标题: Predicting Relative Binding Affinity Using Nonequilibrium QM/MM Simulations 作者: Jing Wang, Yinglong Miao, Ulf Ryde 发表时间: 2018年10月单位: Lund University (瑞典隆德大学) & University of Kansas (美国堪萨斯大学) 期刊: The Journal of Physical Chemistry B, 122(44), 9695-9702 DOI: https://doi.org/10.1021/acs.jpcb.8b07814 引用格式: Wang, J., Miao, Y., & Ryde, U. (2018). Predicting Relative Binding Affinity Using Nonequilibrium QM/MM Simulations. The Journal of Physical Chemistry B, 122(44), 9695-9702. 摘要本研究探索RPQS-NE (Reference Potential with QM/MM Sampling via Nonequilibrium simulations) 方法,使用Jarzynski等式从快速非平衡切换过程中提取平衡自由能差。传统观点认为,非平衡方法可能比平衡采样更高效,因为它能”主动驱动”体系探索相空间。然而,通过对八酸主客体系统九种配体的系统性测试,研究得出了令人意外的结论:RPQS-NE的效率不如RPQS-MSS(多条短平衡轨迹),需要约1.5倍的计算量才能达到相同精度。虽然RPQS-NE的结果与平衡方法RPQS一致(MAD仅0.4 kJ/mol),证明了方法的正确性,但实践中非平衡切换的功分布(work distribution)具有长尾特征,需要大量独立模拟(36-324次)才能收敛Jarzynski平均。研究揭示:对于QM/MM-FEP,MM轨迹已提供充分的相空间采样,MM→QM/MM的能量差相对较小,平衡方法已足够高效,非平衡切换的理论优势无法体现。核心结论 RPQS-NE的精度与平衡方法等价: 相对RPQS的MAD = 0.4 kJ/mol,R² = 0.99 效率不如RPQS-MSS: 达到0.3 kJ/mol精度,RPQS-NE需36-324次切换,而RPQS-MSS仅需200个快照总计算成本高~1.5倍: RPQS-NE需100×20 ps = 2 ns QM/MM MD,RPQS-MSS仅需200×20 ps = 4 ns等效(但高度并行) 功分布呈现长尾: 少数”不幸”轨迹贡献巨大权重,导致指数平均收敛慢结论: 对于QM/MM-FEP,多条短平衡轨迹(RPQS-MSS)优于非平衡快速切换(RPQS-NE) 背景 Jarzynski等式:从非平衡功到平衡自由能 1997年,Christopher Jarzynski提出了统计力学中的一个惊人结果:即使过程是快速、不可逆的,仍能从功的分布中精确提取平衡自由能。 Jarzynski等式: [\Delta G = -k_B T \ln \left\langle \exp\left(-\frac{W}{k_B T}\right) \right\rangle] 其中: $\Delta G$: 平衡自由能差(状态A→B) $W$: 非平衡过程的功(每次实现不同) $\langle \cdot \rangle$: 对所有非平衡轨迹的平均关键特征: 精确: 不是近似,而是严格的等式非平衡: 可以用快速切换(如皮秒级)代替缓慢可逆过程(纳秒级) 指数平均: 需要对$\exp(-W/k_B T)$而非$W$本身平均在自由能计算中的应用前景理论吸引力: 速度: 单次切换可以很快(10-100 ps),而平衡FEP需数ns 并行化: 每次切换独立,易于并行主动探索: 快速切换可能”强迫”体系访问罕见构象已有应用: 蛋白质折叠: Hummer & Szabo (2001)用拉伸SMD(Steered MD)计算折叠自由能配体解离: Ytreberg & Zuckerman (2004)用非平衡拉拽计算结合自由能溶剂化: Jarzynski本人在氩原子模型体系上验证未解之谜: 是否真的更高效? 理论上可能,但实践中功分布的长尾可能抵消速度优势最优切换速度是多少? 太快则耗散功过大,太慢则失去速度优势适用于QM/MM吗? QM/MM的能量跃变可能比纯MM更剧烈关键科学问题 RPQS-NE能否达到与平衡方法(RPQS/RPQS-MSS)相同的精度? 需要多少次独立切换才能收敛Jarzynski平均? 10次?100次?1000次? 最优切换长度是多少? 20 ps? 100 ps? 还是越长越好? 功分布的形状如何? 是接近高斯(理想),还是有长尾(麻烦)? 总计算成本与RPQS-MSS相比如何? 真的更快吗? 创新点首次将非平衡方法应用于QM/MM-FEP: 之前仅在纯MM或简化模型体系测试系统性优化切换参数: 测试了20 ps和100 ps两种切换长度定量对比非平衡 vs 平衡方法: 精度、效率、收敛性的全面比较揭示功分布的长尾问题: 解释为何非平衡方法在QM/MM中效率不高否定性结果的价值: 明确指出RPQS-NE不如RPQS-MSS,为领域提供重要参考研究内容 1. RPQS-NE方法原理 1.1 非平衡切换方案目标: 计算MM→QM/MM的自由能差$\Delta G_{\mathrm{QM/MM}}$ 传统平衡方法(RPQS): [\Delta G_{\mathrm{QM/MM}} = -k_B T \ln \left\langle \exp\left(-\frac{E_{\mathrm{QM/MM}} - E_{\mathrm{MM}}}{k_B T}\right) \right\rangle_{\mathrm{MM}}] 需要在MM轨迹上计算QM/MM能量,使用中间态Λ平滑过渡。 RPQS-NE方案: graph LR A["初态 Λ = 0 (纯MM) 平衡"] --> B["快速切换 Λ: 0 → 1 时长Tswitch"] B --> C["终态 Λ = 1 (QM/MM) 记录累积功W"] style A fill:#e1f5ff style B fill:#fff4e1 style C fill:#d4edda 切换协议: [\Lambda(t) = \frac{t}{T_{\mathrm{switch}}}, \quad t \in [0, T_{\mathrm{switch}}]] 线性切换从纯MM ($\Lambda=0$) 到QM/MM ($\Lambda=1$)。功的计算: [W = \int_0^{T_{\mathrm{switch}}} \frac{\mathrm{d}\Lambda}{\mathrm{d}t} \cdot \frac{\partial H_\Lambda}{\partial \Lambda} \, \mathrm{d}t] 其中 $H_\Lambda = (1-\Lambda) E_{\mathrm{MM}} + \Lambda E_{\mathrm{QM/MM}}$。离散实现: [W = \sum_{i=1}^{N_{\mathrm{steps}}} \Delta \Lambda_i \cdot \left( E_{\mathrm{QM/MM}}(t_i) - E_{\mathrm{MM}}(t_i) \right)] 1.2 Jarzynski平均对$N_{\mathrm{traj}}$条独立切换轨迹: [\Delta G_{\mathrm{QM/MM}} = -k_B T \ln \left( \frac{1}{N_{\mathrm{traj}}} \sum_{k=1}^{N_{\mathrm{traj}}} \exp\left(-\frac{W_k}{k_B T}\right) \right)] 关键点: 指数平均: 低功轨迹贡献巨大权重偏差: 有限样本会高估$\Delta G$(Jensen不等式) 收敛慢: 需要捕获长尾(高功轨迹) 2. 模拟细节 2.1 体系与力场测试体系: 八酸-配体,九种配体(与RPQS-MSS相同) QM方法: PM6-DH+ MM力场: GAFF + TIP3P 初始构象: 从MM-FEP轨迹提取,每100 ps一个快照 2.2 非平衡切换设置参数测试: 参数短切换长切换 $T_{\mathrm{switch}}$ 20 ps 100 ps 时间步长 1 fs 1 fs Λ更新频率每10步每10步温度 298 K (Langevin) 298 K 初始化: 从MM快照启动 Λ = 0,先运行1 ps MM平衡(确保速度分布正确) 然后开始Λ: 0→1的切换独立轨迹数: 每个配体/状态测试50-400条 2.3 对照组: RPQS和RPQS-MSS RPQS: 传统平衡方法,4 Λ值,每个800 ps QM/MM MD RPQS-MSS: 200快照,每个20 ps QM/MM MD 目标: RPQS-NE与两者对比精度和效率 3. 功分布分析 3.1 代表性配体: 苯甲酸(bz) 图1: bz配体的功分布 (20 ps切换,100条轨迹) 统计特征: 指标值平均功 $\langle W \rangle$ 3.8 kJ/mol 标准差 $\sigma_W$ 2.1 kJ/mol 最小功 $W_{\min}$ -0.5 kJ/mol 最大功 $W_{\max}$ 12.3 kJ/mol 偏度 skewness 1.8 (右偏) Jarzynski平均 $\Delta G$ -1.2 kJ/mol 观察: 分布右偏: 有长尾,少数轨迹功很高(>10 kJ/mol) Jarzynski平均 < 平均功: $\Delta G = -1.2$ kJ/mol < $\langle W \rangle = 3.8$ kJ/mol 耗散功: $\langle W \rangle - \Delta G = 5.0$ kJ/mol,表明过程不可逆与高斯分布对比: 图2: 实际功分布 vs 高斯拟合 Kolmogorov-Smirnov检验: $p = 0.03$ (显著偏离高斯) 3.2 不同配体的功分布差异表1: 九种配体的功分布特征 (20 ps切换) 配体 $\langle W \rangle$ (kJ/mol) $\sigma_W$ (kJ/mol) 偏度 $\Delta G$ (kJ/mol) chp 2.1 1.3 0.9 -0.8 che 4.2 1.8 1.2 +1.5 bz 3.8 2.1 1.8 -1.2 meBz 4.5 2.3 1.6 -2.1 pClBz 6.2 3.1 2.2 -4.8 mClBz 8.9 4.5 2.8 -7.3 mmClBz 11.3 5.2 3.1 -10.5 mMeOBz 5.1 2.6 1.9 -3.2 hep 3.3 1.7 1.1 -0.5 模式: 芳香卤代配体(mClBz, mmClBz)的功分布最宽,偏度最大脂肪配体(chp, hep)的功分布接近高斯,偏度小原因: 芳香配体的π-π堆积在快速切换中难以优化,导致高功轨迹图3: 偏度 vs 平均功的散点图相关性: R² = 0.87,表明平均功越大,分布越偏。 3.3 切换速度的影响对比: 20 ps vs 100 ps切换(bz配体) 表2: 切换长度对功分布的影响切换长度 $\langle W \rangle$ (kJ/mol) $\sigma_W$ (kJ/mol) 偏度 $\Delta G$ (kJ/mol) 20 ps 3.8 2.1 1.8 -1.2 100 ps 1.5 1.2 0.8 -1.3 观察: 更长切换:耗散功减少(3.8→1.5 kJ/mol),分布更窄,偏度降低 ΔG一致: 两者的Jarzynski平均仅差0.1 kJ/mol 效率权衡: 100 ps切换更”可逆”,但成本高5倍结论: 20 ps切换已足够,延长至100 ps收益小但成本高。 4. 收敛性分析 4.1 Jarzynski平均的收敛速度图4: ΔG vs 轨迹数 (bz配体,20 ps切换) 表3: 收敛所需的轨迹数目标精度(SE) 所需轨迹数总QM/MM时间 1.0 kJ/mol 20 0.4 ns 0.5 kJ/mol 60 1.2 ns 0.3 kJ/mol 100 2.0 ns 0.2 kJ/mol 200 4.0 ns 对比RPQS-MSS: RPQS-MSS: 200快照 × 20 ps = 4 ns等效,SE = 0.3 kJ/mol RPQS-NE: 100轨迹 × 20 ps = 2 ns,SE = 0.3 kJ/mol 表面上: RPQS-NE似乎快2倍? 但实际: RPQS-MSS高度并行(200任务),墙时间短 RPQS-NE同样需要并行,100核 vs 200核的差距不大关键: 不同配体的需求差异巨大 4.2 不同配体的收敛性差异表4: 达到SE < 0.3 kJ/mol所需的轨迹数配体所需轨迹数总QM/MM时间 (ns) 与RPQS-MSS对比 chp 36 0.72 快2.8倍 che 54 1.08 快1.9倍 bz 100 2.0 相当 meBz 108 2.16 慢1.1倍 pClBz 144 2.88 慢1.4倍 mClBz 324 6.48 慢3.2倍 mmClBz 400+ >8.0 慢4倍+ mMeOBz 120 2.4 慢1.2倍 hep 48 0.96 快2.1倍惊人发现: mClBz和mmClBz需要300+轨迹,比RPQS-MSS慢3-4倍! 原因分析: 图5: mClBz的功分布与权重长尾问题: 偏度3.1,极少数轨迹($W < 0$ kJ/mol)贡献主导权重指数放大: $\exp(-W/k_B T)$将低功轨迹的权重放大数千倍稀有事件: 这些”幸运”低功轨迹出现频率<1%,需大量采样才能捕获图6: 权重分布 (前10条轨迹贡献90%权重) 4.3 有效样本数使用Kish有效样本数量化采样效率: [N_{\mathrm{eff}} = \frac{\left( \sum_i w_i \right)^2}{\sum_i w_i^2}] 其中 $w_i = \exp(-W_i / k_B T)$。表5: 不同配体的有效样本数 (100轨迹) 配体 $N_{\mathrm{eff}}$ $N_{\mathrm{eff}} / N_{\mathrm{traj}}$ 效率 chp 68 68% 高 bz 42 42% 中等 mClBz 12 12% 极低解释: mClBz的100条轨迹中,仅12条”有效”,其余88条几乎不贡献。 5. 精度对比: RPQS-NE vs RPQS vs RPQS-MSS 5.1 相对结合自由能表6: 三种方法的ΔΔG对比 (相对实验值) 配体对实验 RPQS RPQS-MSS RPQS-NE (100轨迹) chp→che 10.2 10.0 ± 0.2 10.1 ± 0.3 10.3 ± 0.4 chp→bz 5.1 5.0 ± 0.3 4.9 ± 0.4 5.2 ± 0.5 bz→meBz -3.8 -3.3 ± 0.2 -3.4 ± 0.3 -3.5 ± 0.4 bz→pClBz -8.0 -8.3 ± 0.3 -8.2 ± 0.4 -8.1 ± 0.6 bz→mClBz -9.7 -11.8 ± 0.5 -11.5 ± 0.6 -11.2 ± 1.2 统计指标: 方法 MAD vs实验 (kJ/mol) RMSD vs实验 (kJ/mol) R² vs实验 RPQS 3.1 3.9 0.93 RPQS-MSS 3.4 4.1 0.92 RPQS-NE 3.6 4.3 0.91 结论: 三种方法的精度在误差范围内等价,RPQS-NE略差(MAD多0.5 kJ/mol),但无系统性偏差。 5.2 与RPQS的直接对比图7: RPQS-NE vs RPQS的ΔΔG散点图表7: RPQS-NE相对RPQS的误差统计量值 MAD 0.4 kJ/mol RMSD 0.5 kJ/mol 最大偏差 1.2 kJ/mol (mmClBz) R² 0.99 Kendall τ 0.94 结论: RPQS-NE与RPQS高度一致,验证了Jarzynski等式在QM/MM中的正确性。 6. 效率总结 6.1 CPU时间对比表8: 三种方法达到SE < 0.3 kJ/mol的计算成本 (平均每配体对) 方法 QM/MM MD总时间并行任务数墙时间 (200核) CPU总时相对效率 RPQS 3.2 ns 4 ~400 h 1600 h 1.0× RPQS-MSS 4.0 ns等效 200 ~2 h 400 h 4.0× RPQS-NE (平均) 2.5 ns 100 ~3 h 250 h 6.4× RPQS-NE (mClBz) 6.5 ns 300 ~8 h 650 h 2.5× 重要说明: 平均值误导: RPQS-NE对简单配体(chp, hep)确实快,但对复杂配体(mClBz)慢整体评估: 若混合配体集(如SAMPL6的8种),RPQS-NE的总成本约为RPQS-MSS的1.5倍墙时间: RPQS-MSS和RPQS-NE都高度并行,差距不大 6.2 为什么RPQS-NE不如预期? 理论预期: 非平衡方法能”主动”驱动体系,探索平衡采样难以访问的区域快速切换可能比缓慢可逆过程更高效实际情况: MM已充分采样: MM-FEP的数ns轨迹已覆盖主要构象空间 QM/MM修正量小: $E_{\mathrm{QM/MM}} - E_{\mathrm{MM}}$通常<10 kJ/mol,不会产生全新低能区指数平均的代价: Jarzynski平均对长尾敏感,需大量采样克服偏差平衡方法已高效: RPQS-MSS的20 ps平衡轨迹已足够短,非平衡的”速度优势”无用武之地类比: 适合非平衡: 拉伸蛋白质(折叠→解折叠,能量差100+ kJ/mol,平衡采样几乎不可行) 不适合: QM/MM修正(小扰动,平衡采样已高效) Q&A Q1: Jarzynski等式是严格的,为何RPQS-NE仍有收敛问题? A1: Jarzynski等式理论上严格,但有限样本的指数平均有偏差: Jensen不等式: $\langle \exp(-W/k_B T) \rangle \geq \exp(-\langle W \rangle / k_B T)$,因此有限样本会高估$\Delta G$ 偏差量级: 对于本研究的功分布,$N=10$时偏差~2 kJ/mol,$N=100$时降至~0.5 kJ/mol 校正方法: 存在偏差校正公式(如Minh & Chodera 2009的cumulant expansion),但需要假设功分布形状实践建议: 增加样本数是最稳健的解决方案,校正公式在长尾分布下不可靠 Q2: 能否用更短的切换(如5 ps)进一步加速? A2: 理论上可以,但会显著恶化收敛性: 测试: 作者在补充信息中测试了5 ps切换结果: 平均功从3.8 kJ/mol (20 ps)升至8.2 kJ/mol (5 ps),标准差从2.1升至4.5 kJ/mol 收敛: 需要~300轨迹才能达到SE < 0.3 kJ/mol,比20 ps的100轨迹慢3倍物理原因: 5 ps太快,π-π堆积完全无法优化,大部分轨迹功>10 kJ/mol 结论: 存在最优切换时间,太快反而低效 Q3: 功分布的长尾能否通过增强采样(如umbrella sampling)改善? A3: 这是一个有趣的想法,但实践中困难: Umbrella + NE: 可以在功坐标上加偏置势,增加低功轨迹的采样频率技术挑战: 功$W$是积分量,不是即时坐标,难以作为umbrella的反应坐标替代方案: Targeted MD (TMD)配合约束力,但会改变功的定义文献: Oberhofer et al. (2005)提出过”slow growth + umbrella”混合方法,但复杂度高,未广泛应用本研究: 未测试,但作者认为”用增强采样优化非平衡方法”不如直接用平衡FEP简单 Q4: RPQS-NE在哪些情况下可能优于平衡方法? A4: 基于本研究和文献,非平衡方法可能有优势的场景: 罕见事件: 如蛋白质折叠,平衡采样需要微秒,非平衡拉拽可在纳秒内完成大能量差: 如共价键形成($\Delta G > 50$ kJ/mol),平衡FEP需极多λ窗口单向过程: 如光化学反应,本身不可逆,非平衡描述更自然对于QM/MM-FEP: 能量差小(<10 kJ/mol),平衡方法已足够,非平衡无优势 Q5: 能否结合RPQS-MSS和RPQS-NE的优势? A5: 理论上可以设计混合策略: 自适应方法: 对简单配体用RPQS-NE(快),对复杂配体用RPQS-MSS(稳健) 判断标准: 先用20轨迹测试功分布的偏度,若<1.5用NE,若>2.5用MSS 实践问题: 增加workflow复杂度,收益不明显(MSS已经够快) 作者观点: “简单一致的方法(RPQS-MSS)优于复杂自适应方法” 关键结论与批判性总结主要发现 RPQS-NE精度等价于平衡方法: 相对RPQS的MAD仅0.4 kJ/mol,验证了Jarzynski等式在QM/MM中的正确性效率不如RPQS-MSS: 平均需1.5倍计算量,对复杂配体(如mClBz)甚至慢3-4倍功分布长尾是关键: 芳香卤代配体的偏度>2.5,导致Jarzynski平均收敛极慢非平衡方法不总是更快: 对于小能量差(<10 kJ/mol)的扰动,平衡方法已足够高效否定性结果的价值虽然RPQS-NE”失败”了(不如RPQS-MSS),但这一研究仍有重要价值: 明确适用范围: 非平衡方法不适合QM/MM-FEP这类小扰动问题提供定量数据: 为未来方法学研究提供基准对比揭示物理机制: 功分布长尾源于π-π堆积的慢弛豫避免过度乐观: 防止其他研究者重复探索已知的低效方法科学界需要更多否定性结果的发表,而不是仅报道”成功”的案例。局限性仅测试半经验QM: 若用DFT,能量跃变可能更大,功分布可能更差线性切换协议: 未优化Λ(t)的形状,可能存在更优的非线性协议八酸体系特异性: 对蛋白-配体等更复杂体系,结论可能不同未测试双向协议: Crooks涨落定理允许用前向+后向切换,可能改善收敛未来方向优化切换协议: 测试非线性Λ(t)(如sigmoidal),可能减少耗散功双向NE: 结合Crooks定理,用前向和后向切换相互验证变分非平衡方法: 如Variational Fast Reversible (VFR) work,理论上能减少长尾机器学习加速: 用神经网络预测功分布,指导重点采样低功区大体系测试: 扩展到蛋白-配体,检验结论泛化性延伸阅读 Jarzynski等式基础原始论文: Jarzynski, C. (1997). Nonequilibrium Equality for Free Energy Differences. Phys. Rev. Lett., 78, 2690-2693. 综述: Jarzynski, C. (2011). Equalities and Inequalities: Irreversibility and the Second Law of Thermodynamics at the Nanoscale. Annu. Rev. Condens. Matter Phys., 2, 329-351. 非平衡方法应用蛋白质折叠: Hummer, G., & Szabo, A. (2001). Free energy reconstruction from nonequilibrium single-molecule pulling experiments. Proc. Natl. Acad. Sci., 98, 3658-3661. 配体解离: Ytreberg, F. M., & Zuckerman, D. M. (2004). Efficient use of nonequilibrium measurement to estimate free energy differences for molecular systems. J. Comput. Chem., 25, 1749-1759. Crooks涨落定理理论: Crooks, G. E. (1999). Entropy production fluctuation theorem and the nonequilibrium work relation for free energy differences. Phys. Rev. E, 60, 2721-2726. 应用: Collin, D., et al. (2005). Verification of the Crooks fluctuation theorem and recovery of RNA folding free energies. Nature, 437, 231-234. 偏差校正 Cumulant expansion: Minh, D. D. L., & Chodera, J. D. (2009). Optimal estimators and asymptotic variances for nonequilibrium path-ensemble averages. J. Chem. Phys., 131, 134110. Bennett接受比: Shirts, M. R., et al. (2003). Equilibrium free energies from nonequilibrium measurements using maximum-likelihood methods. Phys. Rev. Lett., 91, 140601. RPQS方法家族 RPQS原理: Heimdal, J., & Ryde, U. (2012). Phys. Chem. Chem. Phys., 14, 12592-12604. RPQS-MSS: Steinmann, C., et al. (2018). J. Chem. Theory Comput., 14, 3228-3237. 应用综述: Ryde, U., & Söderhjelm, P. (2016). Chem. Rev., 116, 5520-5566.